计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2015年
4期
29-34
,共6页
仿射传播聚类%MapReduce%Hadoop%键值存储%大数据
倣射傳播聚類%MapReduce%Hadoop%鍵值存儲%大數據
방사전파취류%MapReduce%Hadoop%건치존저%대수거
affinity propagation clustering%MapReduce%Hadoop%key-value store%big data
仿射传播聚类算法(AP)是一个新的聚类分析方法,已经被广泛应用于各种领域。APC算法不能用于大型数据的分析。为了克服这个限制,在Hadoop分布式框架的基础上提出一种改进的放射传播聚类分析方法(基于Ha-doop的仿射传播大数据聚类分析方法,简称APCH)。通过在Hadoop环境下重新设计算法流程,APCH算法成为了一个并行化的大数据聚类分析方法。此外APCH算法能够高效操作大数据,并能够直接决定聚类的个数。为了验证方法的性能,在多个数据集上进行了实验。实验结果表明APCH对大数据处理有很好的适应性和延展性。APCH采用开源的方式提供可执行软件程序和源代码,用户可以下载后部署在自己的分布式集群中或者是部署在亚马逊EC2等云计算环境中。所有编译后的执行程序,源代码,用户手册,部分测试数据集均可以从https://github.com/Hel-loWorldCN/MapReduceAPC上下载。
倣射傳播聚類算法(AP)是一箇新的聚類分析方法,已經被廣汎應用于各種領域。APC算法不能用于大型數據的分析。為瞭剋服這箇限製,在Hadoop分佈式框架的基礎上提齣一種改進的放射傳播聚類分析方法(基于Ha-doop的倣射傳播大數據聚類分析方法,簡稱APCH)。通過在Hadoop環境下重新設計算法流程,APCH算法成為瞭一箇併行化的大數據聚類分析方法。此外APCH算法能夠高效操作大數據,併能夠直接決定聚類的箇數。為瞭驗證方法的性能,在多箇數據集上進行瞭實驗。實驗結果錶明APCH對大數據處理有很好的適應性和延展性。APCH採用開源的方式提供可執行軟件程序和源代碼,用戶可以下載後部署在自己的分佈式集群中或者是部署在亞馬遜EC2等雲計算環境中。所有編譯後的執行程序,源代碼,用戶手冊,部分測試數據集均可以從https://github.com/Hel-loWorldCN/MapReduceAPC上下載。
방사전파취류산법(AP)시일개신적취류분석방법,이경피엄범응용우각충영역。APC산법불능용우대형수거적분석。위료극복저개한제,재Hadoop분포식광가적기출상제출일충개진적방사전파취류분석방법(기우Ha-doop적방사전파대수거취류분석방법,간칭APCH)。통과재Hadoop배경하중신설계산법류정,APCH산법성위료일개병행화적대수거취류분석방법。차외APCH산법능구고효조작대수거,병능구직접결정취류적개수。위료험증방법적성능,재다개수거집상진행료실험。실험결과표명APCH대대수거처리유흔호적괄응성화연전성。APCH채용개원적방식제공가집행연건정서화원대마,용호가이하재후부서재자기적분포식집군중혹자시부서재아마손EC2등운계산배경중。소유편역후적집행정서,원대마,용호수책,부분측시수거집균가이종https://github.com/Hel-loWorldCN/MapReduceAPC상하재。
Affinity Propagation Clustering(APC)is a new clustering algorithm. APC has been applied in various fields recently. However, AP can’t be applied for analyzing large-scale data sets. To overcome this limitation, an improved Affinity Propagation cluster analysis algorithm(Affinity Propagation Clustering for Big Data Based on Hadoop, APCH)is proposed in the Hadoop distributed computing framework. After redesigning algorithm flow based on Hadoop framework, APCH becomes parallelized cluster analysis method for large-scale data. Moreover, APCH can efficiently operate big dada, and directly determine the number of clusters. To verify the provided method, we experiment its performance on many data sets. The experimental results show that APCH provides good scalability and flexibility on big data analysis. In addition, APCH is open-source software and can be freely downloaded. APCH can be deployed on your Hadoop clusters, or Amazon Elastic Compute Cloud(Amazon EC2), etc. All compiled execution binary package, user manual, including some test data sets can be downloaded from https://github.com/HelloWorldCN/MapReduceAPC.