湘潭大学自然科学学报
湘潭大學自然科學學報
상담대학자연과학학보
NATURAL SCIENCE JOURNAL OF XIANGTAN UNIVERSITY
2014年
4期
77-82
,共6页
数据预处理%双半连接%SDD-1改进算法
數據預處理%雙半連接%SDD-1改進算法
수거예처리%쌍반련접%SDD-1개진산법
data pre-processing%double half connected%SDD-1 improved algorithm
针对 Hive在处理连接查询时所存在的执行时间长和带宽资源消耗大等问题,提出了一种基于数据预处理和双半连接的SDD-1改进算法。首先,引入预处理技术,在各分布节点对原始数据进行归并排序,以减少汇聚节点的数据映射次数,加快数据处理执行速度;其次,采用基于行和列的双半连接技术,进一步缩减在不同节点间的数据传输量,减少带宽资源消耗。仿真实验表明,相比原始的 Hive 连接算法,改进算法在元组数达到5000和8000时,可使查询速度提升10%,有效缩短查询的处理和响应时间,该改进算法可方便地应用到其他云计算平台上。
針對 Hive在處理連接查詢時所存在的執行時間長和帶寬資源消耗大等問題,提齣瞭一種基于數據預處理和雙半連接的SDD-1改進算法。首先,引入預處理技術,在各分佈節點對原始數據進行歸併排序,以減少彙聚節點的數據映射次數,加快數據處理執行速度;其次,採用基于行和列的雙半連接技術,進一步縮減在不同節點間的數據傳輸量,減少帶寬資源消耗。倣真實驗錶明,相比原始的 Hive 連接算法,改進算法在元組數達到5000和8000時,可使查詢速度提升10%,有效縮短查詢的處理和響應時間,該改進算法可方便地應用到其他雲計算平檯上。
침대 Hive재처리련접사순시소존재적집행시간장화대관자원소모대등문제,제출료일충기우수거예처리화쌍반련접적SDD-1개진산법。수선,인입예처리기술,재각분포절점대원시수거진행귀병배서,이감소회취절점적수거영사차수,가쾌수거처리집행속도;기차,채용기우행화렬적쌍반련접기술,진일보축감재불동절점간적수거전수량,감소대관자원소모。방진실험표명,상비원시적 Hive 련접산법,개진산법재원조수체도5000화8000시,가사사순속도제승10%,유효축단사순적처리화향응시간,해개진산법가방편지응용도기타운계산평태상。
To solove the existence of the long execution time and bandwidth resource consumption and other issues when dealing with queries in Hive system,this paper presented based on data preprocessing and double half connected SDD-1 improved algorithm.Firstly,the introduction of pre-processing technology, the distribution of nodes in each merge sort the raw data in order to reduce the number of data aggregation node mapping,speed up data processing speed of execution;Secondly,the use of semi-connection technolo-gy based on double rows and columns,and further reduction in different data transfer between nodes,re-ducing bandwidth consumption.The simulation results show that,compared to the original Hive join algo-rithm,the improved algorithm in the number of tuples to 5 000 and 8 000,can make the query speed in-creased by 10%,shorten the processing and query response time,application of the improved algorithm can be convenient to other cloud computing platform.