内蒙古科技大学学报
內矇古科技大學學報
내몽고과기대학학보
JOURNAL OF INNER MONGOLIA UNIVERSITY OF SCIENCE AND TECHNOLOGY
2013年
3期
273-277
,共5页
文本聚类%遮盖算法%Hadoop%MapReduce
文本聚類%遮蓋算法%Hadoop%MapReduce
문본취류%차개산법%Hadoop%MapReduce
通过研究Hadoop平台和MapReduce编程框架,提出了一个基于MapReduce的并行遮盖文本聚类算法.遮盖算法提出了两个距离阈值T1,T2用来构建重叠子集,避免了传统聚类算法对噪声敏感的缺点.同时采用适当的快速近似距离度量,大大加快了聚类速度.实验表明该算法在MapReduce框架下有良好的集群加速性能,适合处理大规模的数据集.
通過研究Hadoop平檯和MapReduce編程框架,提齣瞭一箇基于MapReduce的併行遮蓋文本聚類算法.遮蓋算法提齣瞭兩箇距離閾值T1,T2用來構建重疊子集,避免瞭傳統聚類算法對譟聲敏感的缺點.同時採用適噹的快速近似距離度量,大大加快瞭聚類速度.實驗錶明該算法在MapReduce框架下有良好的集群加速性能,適閤處理大規模的數據集.
통과연구Hadoop평태화MapReduce편정광가,제출료일개기우MapReduce적병행차개문본취류산법.차개산법제출료량개거리역치T1,T2용래구건중첩자집,피면료전통취류산법대조성민감적결점.동시채용괄당적쾌속근사거리도량,대대가쾌료취류속도.실험표명해산법재MapReduce광가하유량호적집군가속성능,괄합처리대규모적수거집.