计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2013年
z1期
306-311
,共6页
陈勇旭%陈梦杰%刘雪冰%宋杰
陳勇旭%陳夢傑%劉雪冰%宋傑
진용욱%진몽걸%류설빙%송걸
海量数据%连接聚集查询%MapReduce%I/O代价%算法优化
海量數據%連接聚集查詢%MapReduce%I/O代價%算法優化
해량수거%련접취집사순%MapReduce%I/O대개%산법우화
massive data%aggregate-join query%MapReduce%I/O cost%algorithm optimization
数据的指数级增长给数据管理和分析带来了严峻的挑战.连接聚集查询是数据分析中一种常用运算,而MapReduce是一种用于大规模数据集并行处理的编程模型,研究基于MapReduce的连接聚集查询算法有着学术意义和应用价值.首先在归纳和扩展现有连接算法的基础上总结出4种基于MapReduce的连接聚集查询算法;接着根据应用场景的不同又提出另外两种实现算法;同时提出I/O代价是决定基于MapReduce的连接聚集查询算法性能的主要因素;最后通过大量实验分析这6种算法在不同查询应用下的优劣,总结了它们各自的适用场景,并分析了各个算法的性能与数据特征之间的关系.
數據的指數級增長給數據管理和分析帶來瞭嚴峻的挑戰.連接聚集查詢是數據分析中一種常用運算,而MapReduce是一種用于大規模數據集併行處理的編程模型,研究基于MapReduce的連接聚集查詢算法有著學術意義和應用價值.首先在歸納和擴展現有連接算法的基礎上總結齣4種基于MapReduce的連接聚集查詢算法;接著根據應用場景的不同又提齣另外兩種實現算法;同時提齣I/O代價是決定基于MapReduce的連接聚集查詢算法性能的主要因素;最後通過大量實驗分析這6種算法在不同查詢應用下的優劣,總結瞭它們各自的適用場景,併分析瞭各箇算法的性能與數據特徵之間的關繫.
수거적지수급증장급수거관리화분석대래료엄준적도전.련접취집사순시수거분석중일충상용운산,이MapReduce시일충용우대규모수거집병행처리적편정모형,연구기우MapReduce적련접취집사순산법유착학술의의화응용개치.수선재귀납화확전현유련접산법적기출상총결출4충기우MapReduce적련접취집사순산법;접착근거응용장경적불동우제출령외량충실현산법;동시제출I/O대개시결정기우MapReduce적련접취집사순산법성능적주요인소;최후통과대량실험분석저6충산법재불동사순응용하적우렬,총결료타문각자적괄용장경,병분석료각개산법적성능여수거특정지간적관계.