计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2008年
11期
2923-2925,2929
,共4页
林永民%吕震宇%赵爽%朱卫东
林永民%呂震宇%趙爽%硃衛東
림영민%려진우%조상%주위동
文本分类%特征选择%熵%特征加权%向量空间模型
文本分類%特徵選擇%熵%特徵加權%嚮量空間模型
문본분류%특정선택%적%특정가권%향량공간모형
TF·IDF作为一种简单、直观、处理速度快的文本特征加权方法,在文本分类中得到广泛应用.但是这种方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好的反映单词的有用程度,从而导致分类准确率下降.针对TF·IDF方法存在的问题,采用在特征发生的条件下类的后验概率分布来衡量特征对分类的有效性,提出了一种基于熵的特征加权方法TF·Ensu.实验结果表明,这种加权方法具有很好的分类性能.
TF·IDF作為一種簡單、直觀、處理速度快的文本特徵加權方法,在文本分類中得到廣汎應用.但是這種方法簡單地認為文本頻數少的單詞就重要,文本頻數多的單詞就不重要,使它不可能很好的反映單詞的有用程度,從而導緻分類準確率下降.針對TF·IDF方法存在的問題,採用在特徵髮生的條件下類的後驗概率分佈來衡量特徵對分類的有效性,提齣瞭一種基于熵的特徵加權方法TF·Ensu.實驗結果錶明,這種加權方法具有很好的分類性能.
TF·IDF작위일충간단、직관、처리속도쾌적문본특정가권방법,재문본분류중득도엄범응용.단시저충방법간단지인위문본빈수소적단사취중요,문본빈수다적단사취불중요,사타불가능흔호적반영단사적유용정도,종이도치분류준학솔하강.침대TF·IDF방법존재적문제,채용재특정발생적조건하류적후험개솔분포래형량특정대분류적유효성,제출료일충기우적적특정가권방법TF·Ensu.실험결과표명,저충가권방법구유흔호적분류성능.