计算机应用研究
計算機應用研究
계산궤응용연구
APPLICATION RESEARCH OF COMPUTERS
2013年
10期
2936-2939,2943
,共5页
李伟卫%李梅%张阳%申爱丽
李偉衛%李梅%張暘%申愛麗
리위위%리매%장양%신애려
数据挖掘%分布式数据仓库%分类分析%GAC-RDB%Hadoop%HBase%Hive
數據挖掘%分佈式數據倉庫%分類分析%GAC-RDB%Hadoop%HBase%Hive
수거알굴%분포식수거창고%분류분석%GAC-RDB%Hadoop%HBase%Hive
data mining%distributed data warehouse%classification analysis%GAC-RDB%Hadoop%HBase%Hive
针对GAC-RDB分类算法只能应用于单机版数据仓库的局限性, 为了能够更方便、快捷地在云计算平台上开展数据挖掘工作, 基于分布式数据仓库HBase, 结合GAC-RDB分类算法的实现机理, 制定适合分布式平台的运行策略, 使用原生HiveQL语言提出了一种分布式GAC-RDB分类算法。实验显示, 随着集群中节点的不断增加, 算法的运行时间稳步下降。结果表明, 在保证算法准确率的前提下, 分布式数据仓库能够有效提高GAC-RDB分类算法的扩展性和运行效率, 相对于MapReduce框架, HiveQL语言降低了对数据挖掘从业人员的技术要求, 更大程度地减少了算法的开发时间, 为挖掘海量数据提供了新的解决方案。
針對GAC-RDB分類算法隻能應用于單機版數據倉庫的跼限性, 為瞭能夠更方便、快捷地在雲計算平檯上開展數據挖掘工作, 基于分佈式數據倉庫HBase, 結閤GAC-RDB分類算法的實現機理, 製定適閤分佈式平檯的運行策略, 使用原生HiveQL語言提齣瞭一種分佈式GAC-RDB分類算法。實驗顯示, 隨著集群中節點的不斷增加, 算法的運行時間穩步下降。結果錶明, 在保證算法準確率的前提下, 分佈式數據倉庫能夠有效提高GAC-RDB分類算法的擴展性和運行效率, 相對于MapReduce框架, HiveQL語言降低瞭對數據挖掘從業人員的技術要求, 更大程度地減少瞭算法的開髮時間, 為挖掘海量數據提供瞭新的解決方案。
침대GAC-RDB분류산법지능응용우단궤판수거창고적국한성, 위료능구경방편、쾌첩지재운계산평태상개전수거알굴공작, 기우분포식수거창고HBase, 결합GAC-RDB분류산법적실현궤리, 제정괄합분포식평태적운행책략, 사용원생HiveQL어언제출료일충분포식GAC-RDB분류산법。실험현시, 수착집군중절점적불단증가, 산법적운행시간은보하강。결과표명, 재보증산법준학솔적전제하, 분포식수거창고능구유효제고GAC-RDB분류산법적확전성화운행효솔, 상대우MapReduce광가, HiveQL어언강저료대수거알굴종업인원적기술요구, 경대정도지감소료산법적개발시간, 위알굴해량수거제공료신적해결방안。
According to the limit of GAC-RDB classification algorithm which was designed for stand-alone data warehouse, in order to carry out data mining works more convenient and efficient on cloud computing platform, based on HBase, a distributed data warehouse, and the implementation mechanism of GAC-RDB classification algorithm, this paper proposed a distributed strategy, put forward the distributed GAC-RDB classification algorithm by native HiveQL language. Experiments show that the algorithm running time steadily decline as increased the number of nodes in the cluster. Results indicate that the efficiency of GAC-RDB algorithm can be improved when it is working on a distributed data warehouse, with extended scalability. Relative to the MapReduce framework, HiveQL cut down the technical requirements for data mining workers, decrease development time of the algorithm.