计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2013年
7期
18-21
,共4页
数据挖掘%K-means算法%Hadoop%MapReduce
數據挖掘%K-means算法%Hadoop%MapReduce
수거알굴%K-means산법%Hadoop%MapReduce
data mining%K-means algorithm%Hadoop%MapReduce
文中针对传统并行K-means聚类算法时间复杂度比较高的问题,结合Hadoop平台以及MapReduce编程模型的优势,提出了利用Hadoop及MapReduce编程模型实现大数据量下的K-means聚类算法.其中,Map函数完成每条记录到各个质心距离的计算并标记其所属类别,Reduce函数完成质心的更新,同时计算每条数据到其所属中心点的距离,并累计求和.通过实验,验证了K-means算法部署在Hadoop集群上并行化运行,在处理大数据时,同传统的串行算法相比,确实能够降低时间复杂度,而且表现出很好的稳定性和扩展性.
文中針對傳統併行K-means聚類算法時間複雜度比較高的問題,結閤Hadoop平檯以及MapReduce編程模型的優勢,提齣瞭利用Hadoop及MapReduce編程模型實現大數據量下的K-means聚類算法.其中,Map函數完成每條記錄到各箇質心距離的計算併標記其所屬類彆,Reduce函數完成質心的更新,同時計算每條數據到其所屬中心點的距離,併纍計求和.通過實驗,驗證瞭K-means算法部署在Hadoop集群上併行化運行,在處理大數據時,同傳統的串行算法相比,確實能夠降低時間複雜度,而且錶現齣很好的穩定性和擴展性.
문중침대전통병행K-means취류산법시간복잡도비교고적문제,결합Hadoop평태이급MapReduce편정모형적우세,제출료이용Hadoop급MapReduce편정모형실현대수거량하적K-means취류산법.기중,Map함수완성매조기록도각개질심거리적계산병표기기소속유별,Reduce함수완성질심적경신,동시계산매조수거도기소속중심점적거리,병루계구화.통과실험,험증료K-means산법부서재Hadoop집군상병행화운행,재처리대수거시,동전통적천행산법상비,학실능구강저시간복잡도,이차표현출흔호적은정성화확전성.