计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2014年
3期
606-617
,共12页
赵辉%杨树强%陈志坤%尹洪%金松昌
趙輝%楊樹彊%陳誌坤%尹洪%金鬆昌
조휘%양수강%진지곤%윤홍%금송창
MapReduce%Hadoop%大数据分析%全局索引%范围查询
MapReduce%Hadoop%大數據分析%全跼索引%範圍查詢
MapReduce%Hadoop%대수거분석%전국색인%범위사순
MapReduce%Hadoop%big data analysis%global index%range query
近年来,MapReduce并行计算模型受到工业界和学术界广泛关注.基于该模型的系统实现已在谷歌、雅虎、Facebook等大公司内部成功应用.然而,基于MapReduce的系统实现最初用于解决海量无结构、半结构化数据的批处理问题,例如生成倒排索引、计算网页的pagerank、日志分析等,在设计上缺乏针对海量结构化数据进行交互式分析处理的优化考虑,例如:它总是采用全数据集强力扫描的数据处理模式,这有悖于结构化数据管理中常用的操作模式——选择性查询分析处理.针对该问题,引入传统数据库管理领域中常用的全局索引技术,将其应用在基于MapReduce模型的开源项目Hadoop上,以block为粒度对Hadoop分布式文件系统上的结构化数据构建全局索引结构,并给出一种面向范围查询分析的作业编译与调度执行优化算法,主要目标是基于应用语义及辅助索引结构减少不必要的map任务数,进而优化作业的调度开销和执行开销.在实验验证阶段,给出了80%,50%,30%,10%四种数据选择率在3种集群规模下的优化效果,发现作业响应时间最高可提升5倍,I/O开销最高提升10倍,任务调度开销最高提升11倍.
近年來,MapReduce併行計算模型受到工業界和學術界廣汎關註.基于該模型的繫統實現已在穀歌、雅虎、Facebook等大公司內部成功應用.然而,基于MapReduce的繫統實現最初用于解決海量無結構、半結構化數據的批處理問題,例如生成倒排索引、計算網頁的pagerank、日誌分析等,在設計上缺乏針對海量結構化數據進行交互式分析處理的優化攷慮,例如:它總是採用全數據集彊力掃描的數據處理模式,這有悖于結構化數據管理中常用的操作模式——選擇性查詢分析處理.針對該問題,引入傳統數據庫管理領域中常用的全跼索引技術,將其應用在基于MapReduce模型的開源項目Hadoop上,以block為粒度對Hadoop分佈式文件繫統上的結構化數據構建全跼索引結構,併給齣一種麵嚮範圍查詢分析的作業編譯與調度執行優化算法,主要目標是基于應用語義及輔助索引結構減少不必要的map任務數,進而優化作業的調度開銷和執行開銷.在實驗驗證階段,給齣瞭80%,50%,30%,10%四種數據選擇率在3種集群規模下的優化效果,髮現作業響應時間最高可提升5倍,I/O開銷最高提升10倍,任務調度開銷最高提升11倍.
근년래,MapReduce병행계산모형수도공업계화학술계엄범관주.기우해모형적계통실현이재곡가、아호、Facebook등대공사내부성공응용.연이,기우MapReduce적계통실현최초용우해결해량무결구、반결구화수거적비처리문제,례여생성도배색인、계산망혈적pagerank、일지분석등,재설계상결핍침대해량결구화수거진행교호식분석처리적우화고필,례여:타총시채용전수거집강력소묘적수거처리모식,저유패우결구화수거관리중상용적조작모식——선택성사순분석처리.침대해문제,인입전통수거고관리영역중상용적전국색인기술,장기응용재기우MapReduce모형적개원항목Hadoop상,이block위립도대Hadoop분포식문건계통상적결구화수거구건전국색인결구,병급출일충면향범위사순분석적작업편역여조도집행우화산법,주요목표시기우응용어의급보조색인결구감소불필요적map임무수,진이우화작업적조도개소화집행개소.재실험험증계단,급출료80%,50%,30%,10%사충수거선택솔재3충집군규모하적우화효과,발현작업향응시간최고가제승5배,I/O개소최고제승10배,임무조도개소최고제승11배.