计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2013年
3期
57-60
,共4页
袁玉%崔超远%乌云%陈祝红
袁玉%崔超遠%烏雲%陳祝紅
원옥%최초원%오운%진축홍
Hadoop%Hadoop的分布式文件系统(HDFS)%MapReduce%小文件处理%文件输入格式
Hadoop%Hadoop的分佈式文件繫統(HDFS)%MapReduce%小文件處理%文件輸入格式
Hadoop%Hadoop적분포식문건계통(HDFS)%MapReduce%소문건처리%문건수입격식
Hadoop主要是针对大量数据进行分布式处理的软件框架,即适合于处理大文件,但它们是否也适合处理小文件值得商榷.以词频统计为例,通过在单机环境下一些典型文件测试集的实验,对比了不同文件输入格式对Hadoop处理小文件性能的差异.从Hadoop的工作流程和原理上解释了出现此性能差异的原因.通过分析得出多个小文件整合为一个数据片split有助于改善Hadoop处理小文件性能.
Hadoop主要是針對大量數據進行分佈式處理的軟件框架,即適閤于處理大文件,但它們是否也適閤處理小文件值得商榷.以詞頻統計為例,通過在單機環境下一些典型文件測試集的實驗,對比瞭不同文件輸入格式對Hadoop處理小文件性能的差異.從Hadoop的工作流程和原理上解釋瞭齣現此性能差異的原因.通過分析得齣多箇小文件整閤為一箇數據片split有助于改善Hadoop處理小文件性能.
Hadoop주요시침대대량수거진행분포식처리적연건광가,즉괄합우처리대문건,단타문시부야괄합처리소문건치득상각.이사빈통계위례,통과재단궤배경하일사전형문건측시집적실험,대비료불동문건수입격식대Hadoop처리소문건성능적차이.종Hadoop적공작류정화원리상해석료출현차성능차이적원인.통과분석득출다개소문건정합위일개수거편split유조우개선Hadoop처리소문건성능.