计算机应用研究
計算機應用研究
계산궤응용연구
APPLICATION RESEARCH OF COMPUTERS
2010年
12期
4498-4501
,共4页
K-均值%分子间相互作用力%数据场%文本聚类
K-均值%分子間相互作用力%數據場%文本聚類
K-균치%분자간상호작용력%수거장%문본취류
针对K-均值算法在随机选取初始类中心时存在不足、对噪声和孤立点敏感、不适用于发现大小差别很大的类的问题,借鉴分子间的相互作用力模型,将文本模拟成数据场中的数据点,综合考虑文本间的相似度和相异度,提出一个新的数据势值计算公式.根据文本数据的势,剔除孤立点、确定初始类中心.实验结果证明,该算法可以提高收敛速度,消除噪声和孤立点对聚类结果的影响,提高聚类的精度,适用于主题分布不均匀的文本集.
針對K-均值算法在隨機選取初始類中心時存在不足、對譟聲和孤立點敏感、不適用于髮現大小差彆很大的類的問題,藉鑒分子間的相互作用力模型,將文本模擬成數據場中的數據點,綜閤攷慮文本間的相似度和相異度,提齣一箇新的數據勢值計算公式.根據文本數據的勢,剔除孤立點、確定初始類中心.實驗結果證明,該算法可以提高收斂速度,消除譟聲和孤立點對聚類結果的影響,提高聚類的精度,適用于主題分佈不均勻的文本集.
침대K-균치산법재수궤선취초시류중심시존재불족、대조성화고립점민감、불괄용우발현대소차별흔대적류적문제,차감분자간적상호작용력모형,장문본모의성수거장중적수거점,종합고필문본간적상사도화상이도,제출일개신적수거세치계산공식.근거문본수거적세,척제고립점、학정초시류중심.실험결과증명,해산법가이제고수렴속도,소제조성화고립점대취류결과적영향,제고취류적정도,괄용우주제분포불균균적문본집.