计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2013年
z1期
378-383
,共6页
郭朝鹏%王智%韩峰%张一川%宋杰
郭朝鵬%王智%韓峰%張一川%宋傑
곽조붕%왕지%한봉%장일천%송걸
多维数据模型%OLAP%海量数据%HDFS%MapReduce
多維數據模型%OLAP%海量數據%HDFS%MapReduce
다유수거모형%OLAP%해량수거%HDFS%MapReduce
multi-dimensional data model%OLAP%massive data%HDFS%MapReduce
近年来,随着计算机技术的发展及其在互联网、传感器和科学数据分析等领域的广泛应用,数据量爆炸性地增长,海量数据给传统的数据管理和分析带来新的挑战,学界和业界广泛采用分布式文件系统和MapReduce编程模型来应对这一挑战.介绍了HaoLap(Hadoop based OLAP),一种基于Hadoop分布式文件系统(HDFS)和MapReduce编程模型的海量数据OLAP系统.本研究吸取了MOLAP的经验:采用元数据存储多维模型以及HDFS存储事实数据,采用编码完成维和事实数据的映射,采用MapReduce完成OLAP运算.描述了HaoLap的关键技术,包括系统结构、维定义和编码、事实数据存储和编码、OLAP算法和服务接口.介绍了HaoLap在科学数据分析的应用案例,并与主流非关系数据管理系统进行性能对比.实验结果表明,尽管数据装载性能略显不足,但HaoLap的OLAP性能要优于HBase,Hive,HadoopDB等主流非关系数据管理系统.
近年來,隨著計算機技術的髮展及其在互聯網、傳感器和科學數據分析等領域的廣汎應用,數據量爆炸性地增長,海量數據給傳統的數據管理和分析帶來新的挑戰,學界和業界廣汎採用分佈式文件繫統和MapReduce編程模型來應對這一挑戰.介紹瞭HaoLap(Hadoop based OLAP),一種基于Hadoop分佈式文件繫統(HDFS)和MapReduce編程模型的海量數據OLAP繫統.本研究吸取瞭MOLAP的經驗:採用元數據存儲多維模型以及HDFS存儲事實數據,採用編碼完成維和事實數據的映射,採用MapReduce完成OLAP運算.描述瞭HaoLap的關鍵技術,包括繫統結構、維定義和編碼、事實數據存儲和編碼、OLAP算法和服務接口.介紹瞭HaoLap在科學數據分析的應用案例,併與主流非關繫數據管理繫統進行性能對比.實驗結果錶明,儘管數據裝載性能略顯不足,但HaoLap的OLAP性能要優于HBase,Hive,HadoopDB等主流非關繫數據管理繫統.
근년래,수착계산궤기술적발전급기재호련망、전감기화과학수거분석등영역적엄범응용,수거량폭작성지증장,해량수거급전통적수거관리화분석대래신적도전,학계화업계엄범채용분포식문건계통화MapReduce편정모형래응대저일도전.개소료HaoLap(Hadoop based OLAP),일충기우Hadoop분포식문건계통(HDFS)화MapReduce편정모형적해량수거OLAP계통.본연구흡취료MOLAP적경험:채용원수거존저다유모형이급HDFS존저사실수거,채용편마완성유화사실수거적영사,채용MapReduce완성OLAP운산.묘술료HaoLap적관건기술,포괄계통결구、유정의화편마、사실수거존저화편마、OLAP산법화복무접구.개소료HaoLap재과학수거분석적응용안례,병여주류비관계수거관리계통진행성능대비.실험결과표명,진관수거장재성능략현불족,단HaoLap적OLAP성능요우우HBase,Hive,HadoopDB등주류비관계수거관리계통.