软件学报
軟件學報
연건학보
JOURNAL OF SOFTWARE
2014年
4期
731-752
,共22页
宋杰%郭朝鹏%王智%张一川%于戈%Jean-Marc PIERSON
宋傑%郭朝鵬%王智%張一川%于戈%Jean-Marc PIERSON
송걸%곽조붕%왕지%장일천%우과%Jean-Marc PIERSON
大数据%多维数据模型%OLAP%MapReduce
大數據%多維數據模型%OLAP%MapReduce
대수거%다유수거모형%OLAP%MapReduce
big data%multi-dimensional data model%OLAP%MapReduce
大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,学界和业界广泛采用分布式文件系统和MapReduce编程模型来应对这一挑战.提出了大数据环境中一种基于Hadoop分布式文件系统(HDFS)和MapReduce编程模型的分布式MOLAP技术,称为DOLAP(distributed OLAP).DOLAP采用一种特殊的多维模型完成维和度量的映射;采用维编码和遍历算法实现维层次上的上卷下钻操作;采用数据分块和线性化算法将维和度量保存在分布式文件系统中;采用数据块选择算法优化OLAP的性能;采用MapReduce编程模型实现OLAP操作.描述了DOLAP在科学数据分析的应用案例,并与主流的非关系数据库系统进行性能对比.实验结果表明,尽管数据装载性能略显不足,但DOLAP的性能要优于基于HBase,Hive,HadoopDB,OLAP4Cloud等主流非关系数据库系统实现的OLAP性能.
大數據的規模效應給數據存儲、管理以及數據分析帶來瞭極大的挑戰,學界和業界廣汎採用分佈式文件繫統和MapReduce編程模型來應對這一挑戰.提齣瞭大數據環境中一種基于Hadoop分佈式文件繫統(HDFS)和MapReduce編程模型的分佈式MOLAP技術,稱為DOLAP(distributed OLAP).DOLAP採用一種特殊的多維模型完成維和度量的映射;採用維編碼和遍歷算法實現維層次上的上捲下鑽操作;採用數據分塊和線性化算法將維和度量保存在分佈式文件繫統中;採用數據塊選擇算法優化OLAP的性能;採用MapReduce編程模型實現OLAP操作.描述瞭DOLAP在科學數據分析的應用案例,併與主流的非關繫數據庫繫統進行性能對比.實驗結果錶明,儘管數據裝載性能略顯不足,但DOLAP的性能要優于基于HBase,Hive,HadoopDB,OLAP4Cloud等主流非關繫數據庫繫統實現的OLAP性能.
대수거적규모효응급수거존저、관리이급수거분석대래료겁대적도전,학계화업계엄범채용분포식문건계통화MapReduce편정모형래응대저일도전.제출료대수거배경중일충기우Hadoop분포식문건계통(HDFS)화MapReduce편정모형적분포식MOLAP기술,칭위DOLAP(distributed OLAP).DOLAP채용일충특수적다유모형완성유화도량적영사;채용유편마화편력산법실현유층차상적상권하찬조작;채용수거분괴화선성화산법장유화도량보존재분포식문건계통중;채용수거괴선택산법우화OLAP적성능;채용MapReduce편정모형실현OLAP조작.묘술료DOLAP재과학수거분석적응용안례,병여주류적비관계수거고계통진행성능대비.실험결과표명,진관수거장재성능략현불족,단DOLAP적성능요우우기우HBase,Hive,HadoopDB,OLAP4Cloud등주류비관계수거고계통실현적OLAP성능.