软件工程师
軟件工程師
연건공정사
SOFTWARE ENGINEER
2015年
7期
57-59,56
,共4页
Hive%优化%join%数据倾斜
Hive%優化%join%數據傾斜
Hive%우화%join%수거경사
hive%optimization%join%data skew
针对电信大数据在流动人口统计中的处理需求,采用Intel?Hadoop发行版,设计Hive数据仓库并进行优化,重点对性能影响较大的join连接和数据倾斜问题进行了优化。实验表明,对于TB级数据,简单统计如count、sum等可在10分钟以内完成,聚合统计如join、group by等可在30分钟左右完成,能有效支撑大数据环境下的流动人口统计和监测。
針對電信大數據在流動人口統計中的處理需求,採用Intel?Hadoop髮行版,設計Hive數據倉庫併進行優化,重點對性能影響較大的join連接和數據傾斜問題進行瞭優化。實驗錶明,對于TB級數據,簡單統計如count、sum等可在10分鐘以內完成,聚閤統計如join、group by等可在30分鐘左右完成,能有效支撐大數據環境下的流動人口統計和鑑測。
침대전신대수거재류동인구통계중적처리수구,채용Intel?Hadoop발행판,설계Hive수거창고병진행우화,중점대성능영향교대적join련접화수거경사문제진행료우화。실험표명,대우TB급수거,간단통계여count、sum등가재10분종이내완성,취합통계여join、group by등가재30분종좌우완성,능유효지탱대수거배경하적류동인구통계화감측。
According to demand of the telecom data in lfoating population statistics processing,using Intel & reg.Hadoop release,hive data warehouse design and optimization,focusing on on the performance inlfuence larger join connection and data skew optimization,realize the massive telecom data,query and statistical,meet the lfoating population in the statistics and analysis.