计算机与现代化
計算機與現代化
계산궤여현대화
COMPUTER AND MODERNIZATION
2013年
5期
22-27
,共6页
连接算法%数据倾斜%全局分区%采样
連接算法%數據傾斜%全跼分區%採樣
련접산법%수거경사%전국분구%채양
基于MapReduce的连接算法的研究是海量数据研究领域的一个重要内容,但都集中在数据分布均匀的情况下进行算法优化,而在实际应用中数据分布往往是不均匀的.本文基于此背景,提出一种适合在数据严重倾斜时使用基于Ma-pReduce编程模型的连接算法Skew Control Join,算法通过采样获取数据集的整体分布,通过全局分区将数据集进行分割,使倾斜数据的处理平均分配到所有的Reduce任务上.实验表明在数据倾斜时,本文提出的算法具有良好的性能,达到研究目标.
基于MapReduce的連接算法的研究是海量數據研究領域的一箇重要內容,但都集中在數據分佈均勻的情況下進行算法優化,而在實際應用中數據分佈往往是不均勻的.本文基于此揹景,提齣一種適閤在數據嚴重傾斜時使用基于Ma-pReduce編程模型的連接算法Skew Control Join,算法通過採樣穫取數據集的整體分佈,通過全跼分區將數據集進行分割,使傾斜數據的處理平均分配到所有的Reduce任務上.實驗錶明在數據傾斜時,本文提齣的算法具有良好的性能,達到研究目標.
기우MapReduce적련접산법적연구시해량수거연구영역적일개중요내용,단도집중재수거분포균균적정황하진행산법우화,이재실제응용중수거분포왕왕시불균균적.본문기우차배경,제출일충괄합재수거엄중경사시사용기우Ma-pReduce편정모형적련접산법Skew Control Join,산법통과채양획취수거집적정체분포,통과전국분구장수거집진행분할,사경사수거적처리평균분배도소유적Reduce임무상.실험표명재수거경사시,본문제출적산법구유량호적성능,체도연구목표.