微计算机信息
微計算機信息
미계산궤신식
CONTROL & AUTOMATION
2009年
21期
142-144
,共3页
焦慧%刘迁%王玉英%贾惠波
焦慧%劉遷%王玉英%賈惠波
초혜%류천%왕옥영%가혜파
文本聚类%K均值%初始值优化
文本聚類%K均值%初始值優化
문본취류%K균치%초시치우화
文本聚类是中文文本挖掘中的一种重要分析方法.K均值聚类算法是目前最为常用的文本聚类算法之一.但此算法在处理高维、稀疏数据集等问题时存在一些不足,且对初始聚类中心敏感.本文针时这些不足,提出了用特征词向量空间模型来降低向量的维数;并提出一种新的优化初始聚类中心的算法,即根据文章的特征词选择有代表性的初始聚类中心.实验表明特征词向量空间模型和优化初始聚类中心的算法能降低计算复杂度,增强结果的稳定性,并产生质量较高的聚类结果.
文本聚類是中文文本挖掘中的一種重要分析方法.K均值聚類算法是目前最為常用的文本聚類算法之一.但此算法在處理高維、稀疏數據集等問題時存在一些不足,且對初始聚類中心敏感.本文針時這些不足,提齣瞭用特徵詞嚮量空間模型來降低嚮量的維數;併提齣一種新的優化初始聚類中心的算法,即根據文章的特徵詞選擇有代錶性的初始聚類中心.實驗錶明特徵詞嚮量空間模型和優化初始聚類中心的算法能降低計算複雜度,增彊結果的穩定性,併產生質量較高的聚類結果.
문본취류시중문문본알굴중적일충중요분석방법.K균치취류산법시목전최위상용적문본취류산법지일.단차산법재처리고유、희소수거집등문제시존재일사불족,차대초시취류중심민감.본문침시저사불족,제출료용특정사향량공간모형래강저향량적유수;병제출일충신적우화초시취류중심적산법,즉근거문장적특정사선택유대표성적초시취류중심.실험표명특정사향량공간모형화우화초시취류중심적산법능강저계산복잡도,증강결과적은정성,병산생질량교고적취류결과.