计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2013年
z2期
114-120
,共7页
周强%陈岭%马骄阳%赵宇亮%吴勇%王敬昌
週彊%陳嶺%馬驕暘%趙宇亮%吳勇%王敬昌
주강%진령%마교양%조우량%오용%왕경창
查询超图%代价模型%Impala大数据实时查询%左线性树%执行计划
查詢超圖%代價模型%Impala大數據實時查詢%左線性樹%執行計劃
사순초도%대개모형%Impala대수거실시사순%좌선성수%집행계화
query hypergraph%cost model%Impala big data real-time query%left deep tree%execution plan
针对目前基于动态规划查询超图(dynamic programming hypergraphs,DPhyp)优化SQL查询算法产生指数运行时间、传统代价模型难以直接适用于Impala大数据实时查询系统等问题,提出基于改进DPhyp算法的Impala查询优化方法.首先,构建满足左线性树的搜索策略,缩小整个执行计划的搜索空间;接着,综合考虑数据移动代价及Hash join算法运行等关键因素,结合提出的代价模型,生成最佳的join顺序;最后,在生成的join顺序基础上构建执行计划,执行后返回最终查询结果.大量实验结果表明,改进的DPhyp算法与DPhyp生成的join顺序一致,且前者算法运行效率比后者要快近一倍.另外,改进的DPhyp算法结合提出的代价模型,比原始的Impala查询响应时间平均减少67%~80%.
針對目前基于動態規劃查詢超圖(dynamic programming hypergraphs,DPhyp)優化SQL查詢算法產生指數運行時間、傳統代價模型難以直接適用于Impala大數據實時查詢繫統等問題,提齣基于改進DPhyp算法的Impala查詢優化方法.首先,構建滿足左線性樹的搜索策略,縮小整箇執行計劃的搜索空間;接著,綜閤攷慮數據移動代價及Hash join算法運行等關鍵因素,結閤提齣的代價模型,生成最佳的join順序;最後,在生成的join順序基礎上構建執行計劃,執行後返迴最終查詢結果.大量實驗結果錶明,改進的DPhyp算法與DPhyp生成的join順序一緻,且前者算法運行效率比後者要快近一倍.另外,改進的DPhyp算法結閤提齣的代價模型,比原始的Impala查詢響應時間平均減少67%~80%.
침대목전기우동태규화사순초도(dynamic programming hypergraphs,DPhyp)우화SQL사순산법산생지수운행시간、전통대개모형난이직접괄용우Impala대수거실시사순계통등문제,제출기우개진DPhyp산법적Impala사순우화방법.수선,구건만족좌선성수적수색책략,축소정개집행계화적수색공간;접착,종합고필수거이동대개급Hash join산법운행등관건인소,결합제출적대개모형,생성최가적join순서;최후,재생성적join순서기출상구건집행계화,집행후반회최종사순결과.대량실험결과표명,개진적DPhyp산법여DPhyp생성적join순서일치,차전자산법운행효솔비후자요쾌근일배.령외,개진적DPhyp산법결합제출적대개모형,비원시적Impala사순향응시간평균감소67%~80%.