中原工学院学报
中原工學院學報
중원공학원학보
JOURNAL OF ZHONGYUAN INSTITUTE OF TECHNOLOGY
2015年
3期
90-94
,共5页
MapReduce%Pregel%Hama%GraphLab%MPI%数据挖掘
MapReduce%Pregel%Hama%GraphLab%MPI%數據挖掘
MapReduce%Pregel%Hama%GraphLab%MPI%수거알굴
MapReduce%Pregel%Hama%GraphLab%MPI%data mining
将机器学习并行化是进行海量数据挖掘的重要方式,但由于并行计算框架、机器学习算法的多样性,导致计算框架的选取及算法并行化存在着困难。本文对几种常见的并行计算框架的模型结构和工作机理进行了分析,根据算法中变量的依存关系将其分类,并将这几类算法进行了实验对比。实验结果表明,算法中变量的依存关系对其在并行化后的性能有巨大的影响。
將機器學習併行化是進行海量數據挖掘的重要方式,但由于併行計算框架、機器學習算法的多樣性,導緻計算框架的選取及算法併行化存在著睏難。本文對幾種常見的併行計算框架的模型結構和工作機理進行瞭分析,根據算法中變量的依存關繫將其分類,併將這幾類算法進行瞭實驗對比。實驗結果錶明,算法中變量的依存關繫對其在併行化後的性能有巨大的影響。
장궤기학습병행화시진행해량수거알굴적중요방식,단유우병행계산광가、궤기학습산법적다양성,도치계산광가적선취급산법병행화존재착곤난。본문대궤충상견적병행계산광가적모형결구화공작궤리진행료분석,근거산법중변량적의존관계장기분류,병장저궤류산법진행료실험대비。실험결과표명,산법중변량적의존관계대기재병행화후적성능유거대적영향。
To slove the date mining on large dataset, the parallelizaion of algorithm is the most important solu-tion. Due to the diversity of the parallel frameworks and the machine learning algorithms, it is difficult to choose a framework and algorithm parallelizaion. In this paper, the models and mechanism of the parallel framework are ana-lyzed, and it is classified based on the parameter relations. In the end, the experiments are conducted and the results show that the relation of the algorithm parameters have great impact on the performance.