计算机应用与软件
計算機應用與軟件
계산궤응용여연건
COMPUTER APPLICATIONS AND SOFTWARE
2014年
2期
24-28
,共5页
列存储%MapReduce%RB+索引
列存儲%MapReduce%RB+索引
렬존저%MapReduce%RB+색인
Column-store%MapReduce%RB+Index
大数据的存储与分析是近年来数据库领域研究的热点,高效的索引技术是提高大数据查询分析性能的重要技术手段。在现有的数据存储模型及索引技术研究基础上,提出使用MapReduce构建列存储数据的索引。该索引技术结合MapReduce编程模型,先在Map阶段完成数据划分,然后在Reduce阶段完成数据的排序,最后在数据有序的Reduce节点上创建RB+树索引,从而减少索引创建时因为RB+树内部节点递归分裂而产生的昂贵代价和树的高度,提高数据查询的性能。通过在真实数据集上进行实验,验证了所提出方法的有效性。
大數據的存儲與分析是近年來數據庫領域研究的熱點,高效的索引技術是提高大數據查詢分析性能的重要技術手段。在現有的數據存儲模型及索引技術研究基礎上,提齣使用MapReduce構建列存儲數據的索引。該索引技術結閤MapReduce編程模型,先在Map階段完成數據劃分,然後在Reduce階段完成數據的排序,最後在數據有序的Reduce節點上創建RB+樹索引,從而減少索引創建時因為RB+樹內部節點遞歸分裂而產生的昂貴代價和樹的高度,提高數據查詢的性能。通過在真實數據集上進行實驗,驗證瞭所提齣方法的有效性。
대수거적존저여분석시근년래수거고영역연구적열점,고효적색인기술시제고대수거사순분석성능적중요기술수단。재현유적수거존저모형급색인기술연구기출상,제출사용MapReduce구건렬존저수거적색인。해색인기술결합MapReduce편정모형,선재Map계단완성수거화분,연후재Reduce계단완성수거적배서,최후재수거유서적Reduce절점상창건RB+수색인,종이감소색인창건시인위RB+수내부절점체귀분렬이산생적앙귀대개화수적고도,제고수거사순적성능。통과재진실수거집상진행실험,험증료소제출방법적유효성。
Huge data storage and analysis are the research focus of database field in recent years.Efficient index technology is an important technical means to improve the performance of huge data query and analysis.Based on existing studies on data storage model and index technology,we propose that to use MapReduce to create index for column-store data.In combination with the MapReduce programming model,this index technique first completes data partitioning in Map phase,then completes data sorting in Reduce phase,and finally creates RB+tree index on each sorted data Reduce node,so as to cut down the high cost caused by recursive split between inner nodes of RB+tree when the index is creating and the height of the tree,and to improve data query performance.Through the experiment on real log file datasets,it verifies the effectiveness of the proposed method.