计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2014年
4期
269-272
,共4页
缪裕青%张锦杏%刘少兵%文益民%明媚
繆裕青%張錦杏%劉少兵%文益民%明媚
무유청%장금행%류소병%문익민%명미
微簇%等价连接%Hadoop平台%聚类
微簇%等價連接%Hadoop平檯%聚類
미족%등개련접%Hadoop평태%취류
Micro-cluster%Equivalence relation%Hadoop%Clustering
针对现有很多聚类算法不能有效处理大规模数据的问题,基于微簇和等价连接关系,提出一种能在Hadoop平台实现高效并行化的聚类算法bigKClustering.算法将紧凑的数据抽象成一个向量,然后通过等价关系对这些向量进行连接,得到最终的聚类结果.实验结果表明,bigKClustering算法不仅具有良好的时间效率和聚类效果,而且具有良好的可伸缩性、加速比和时间稳定性.
針對現有很多聚類算法不能有效處理大規模數據的問題,基于微簇和等價連接關繫,提齣一種能在Hadoop平檯實現高效併行化的聚類算法bigKClustering.算法將緊湊的數據抽象成一箇嚮量,然後通過等價關繫對這些嚮量進行連接,得到最終的聚類結果.實驗結果錶明,bigKClustering算法不僅具有良好的時間效率和聚類效果,而且具有良好的可伸縮性、加速比和時間穩定性.
침대현유흔다취류산법불능유효처리대규모수거적문제,기우미족화등개련접관계,제출일충능재Hadoop평태실현고효병행화적취류산법bigKClustering.산법장긴주적수거추상성일개향량,연후통과등개관계대저사향량진행련접,득도최종적취류결과.실험결과표명,bigKClustering산법불부구유량호적시간효솔화취류효과,이차구유량호적가신축성、가속비화시간은정성.