计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2014年
10期
1860-1865
,共6页
翟红敏%刘国华%赵威%刘源源%翟红坤
翟紅敏%劉國華%趙威%劉源源%翟紅坤
적홍민%류국화%조위%류원원%적홍곤
MapReduce%连接%数据倾斜%范围分割%负载均衡
MapReduce%連接%數據傾斜%範圍分割%負載均衡
MapReduce%련접%수거경사%범위분할%부재균형
MapReduce%join%data skew%rangepartitioner%load balancing
数据分析和处理是大规模分布式数据处理应用中的重要任务.由于简单易用和具有灵活性,MapReduce编程模型逐渐成为大规模分布式数据处理系统(如Hadoop系统)的核心模型.由于所处理的数据可能不是均匀分布的,MapReduce编程模型在处理连接操作时,会出现数据倾斜问题.数据倾斜问题严重降低了MapReduce执行连接操作的效率.针对MapReduce中连接操作的数据倾斜问题,分析了造成MapReduce连接性能瓶颈的原因并建立负载均衡代价模型,提出了用范围分割方法控制连接过程中的数据倾斜问题实现负载均衡的策略.实验结果表明,所提方法明显提高了连接的效率.
數據分析和處理是大規模分佈式數據處理應用中的重要任務.由于簡單易用和具有靈活性,MapReduce編程模型逐漸成為大規模分佈式數據處理繫統(如Hadoop繫統)的覈心模型.由于所處理的數據可能不是均勻分佈的,MapReduce編程模型在處理連接操作時,會齣現數據傾斜問題.數據傾斜問題嚴重降低瞭MapReduce執行連接操作的效率.針對MapReduce中連接操作的數據傾斜問題,分析瞭造成MapReduce連接性能瓶頸的原因併建立負載均衡代價模型,提齣瞭用範圍分割方法控製連接過程中的數據傾斜問題實現負載均衡的策略.實驗結果錶明,所提方法明顯提高瞭連接的效率.
수거분석화처리시대규모분포식수거처리응용중적중요임무.유우간단역용화구유령활성,MapReduce편정모형축점성위대규모분포식수거처리계통(여Hadoop계통)적핵심모형.유우소처리적수거가능불시균균분포적,MapReduce편정모형재처리련접조작시,회출현수거경사문제.수거경사문제엄중강저료MapReduce집행련접조작적효솔.침대MapReduce중련접조작적수거경사문제,분석료조성MapReduce련접성능병경적원인병건립부재균형대개모형,제출료용범위분할방법공제련접과정중적수거경사문제실현부재균형적책략.실험결과표명,소제방법명현제고료련접적효솔.