计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2009年
2期
401-403,407
,共4页
文本聚类%k-means%CURD%向量空间模型%参考区域
文本聚類%k-means%CURD%嚮量空間模型%參攷區域
문본취류%k-means%CURD%향량공간모형%삼고구역
k-means是目前常用的文本聚类算法,该算法的主要缺点需要人工指定聚类的最终个数k及相应的初始中心点.针对这些缺点,提出一种基于参考区域的初始化方法,自动生成k-means的初始化分区,并且在参考区域的生成过程中,设计一种求最大斜率(绝对值)的方法确定自动阈值.理论分析和实验结果表明,该改进算法能有效的提高文本聚类的精度,且具有可行的效率.
k-means是目前常用的文本聚類算法,該算法的主要缺點需要人工指定聚類的最終箇數k及相應的初始中心點.針對這些缺點,提齣一種基于參攷區域的初始化方法,自動生成k-means的初始化分區,併且在參攷區域的生成過程中,設計一種求最大斜率(絕對值)的方法確定自動閾值.理論分析和實驗結果錶明,該改進算法能有效的提高文本聚類的精度,且具有可行的效率.
k-means시목전상용적문본취류산법,해산법적주요결점수요인공지정취류적최종개수k급상응적초시중심점.침대저사결점,제출일충기우삼고구역적초시화방법,자동생성k-means적초시화분구,병차재삼고구역적생성과정중,설계일충구최대사솔(절대치)적방법학정자동역치.이론분석화실험결과표명,해개진산법능유효적제고문본취류적정도,차구유가행적효솔.