工程数学学报
工程數學學報
공정수학학보
CHINESE JOURNAL OF ENGINEERING MATHEMATICS
2012年
4期
523-528
,共6页
文本聚类%特征选择%权重%k均值聚类
文本聚類%特徵選擇%權重%k均值聚類
문본취류%특정선택%권중%k균치취류
本文提出了一种新的基于词频和文档频率的特征词权重计算方法ETFC.首先构造了新的函数作为特征词的类别区分度,加强了低文档频数特征词的类别区分能力.然后运用k-means算法进行聚类实验.结果表明,改进后的权重算法ETFC比现有的权重算法TFIDF和TFC在聚类纯度和算法的稳定性方面均有较大提高,从而表明改进策略是可行的.
本文提齣瞭一種新的基于詞頻和文檔頻率的特徵詞權重計算方法ETFC.首先構造瞭新的函數作為特徵詞的類彆區分度,加彊瞭低文檔頻數特徵詞的類彆區分能力.然後運用k-means算法進行聚類實驗.結果錶明,改進後的權重算法ETFC比現有的權重算法TFIDF和TFC在聚類純度和算法的穩定性方麵均有較大提高,從而錶明改進策略是可行的.
본문제출료일충신적기우사빈화문당빈솔적특정사권중계산방법ETFC.수선구조료신적함수작위특정사적유별구분도,가강료저문당빈수특정사적유별구분능력.연후운용k-means산법진행취류실험.결과표명,개진후적권중산법ETFC비현유적권중산법TFIDF화TFC재취류순도화산법적은정성방면균유교대제고,종이표명개진책략시가행적.