计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2008年
20期
145-147,158
,共4页
吕震宇%林永民%赵爽%陈景年%朱卫东
呂震宇%林永民%趙爽%陳景年%硃衛東
려진우%림영민%조상%진경년%주위동
文本分类%特征选择%特征加权%基尼指数
文本分類%特徵選擇%特徵加權%基尼指數
문본분류%특정선택%특정가권%기니지수
文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度.传统的特征选择方案筛选出的特征往往偏爱类分布不均匀文档集中的大类,而常用的TF·IDF特征加权方案仅考虑了特征与文档的关系,缺乏对特征与类别关系的考虑.针对上述问题,提出了基于类别信息的特征选择与加权方法,在两个不同的语料集上进行比较和分析实验,结果显示基于类别信息的特征选择与加权方法比传统方法在处理类分布不均匀的文档集时能有效提高分类精度,并且降维程度有所提高.
文本自動分類中特徵選擇和加權的目的是為瞭降低文本特徵空間維數、去除譟音和提高分類精度.傳統的特徵選擇方案篩選齣的特徵往往偏愛類分佈不均勻文檔集中的大類,而常用的TF·IDF特徵加權方案僅攷慮瞭特徵與文檔的關繫,缺乏對特徵與類彆關繫的攷慮.針對上述問題,提齣瞭基于類彆信息的特徵選擇與加權方法,在兩箇不同的語料集上進行比較和分析實驗,結果顯示基于類彆信息的特徵選擇與加權方法比傳統方法在處理類分佈不均勻的文檔集時能有效提高分類精度,併且降維程度有所提高.
문본자동분류중특정선택화가권적목적시위료강저문본특정공간유수、거제조음화제고분류정도.전통적특정선택방안사선출적특정왕왕편애류분포불균균문당집중적대류,이상용적TF·IDF특정가권방안부고필료특정여문당적관계,결핍대특정여유별관계적고필.침대상술문제,제출료기우유별신식적특정선택여가권방법,재량개불동적어료집상진행비교화분석실험,결과현시기우유별신식적특정선택여가권방법비전통방법재처리류분포불균균적문당집시능유효제고분류정도,병차강유정도유소제고.