计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2012年
2期
354-360
,共7页
刘赫%张相洪%刘大有%李燕军%尹立军
劉赫%張相洪%劉大有%李燕軍%尹立軍
류혁%장상홍%류대유%리연군%윤립군
文本分类%特征选择%最大边缘相关%CHI%信息新颖度
文本分類%特徵選擇%最大邊緣相關%CHI%信息新穎度
문본분류%특정선택%최대변연상관%CHI%신식신영도
文本分类的特点是高维的特征空间和高度的特征冗余.针对这两个特点,采用x2统计量处理高维的特征空间,利用信息新颖度的思想处理高度的特征冗余,根据最大边缘相关的定义,将二者有机结合,提出一种基于最大边缘相关的特征选择方法.该方法可以在特征选择过程中减少大量的冗余特征.最后,在Reuters-21578 Topl0和OHSCAL两个文本数据集上进行实验.实验结果表明,基于最大边缘相关的特征选择方法比x2统计量和信息增益两种特征选择方法更高效,并且能够提高naive Bayes,Rocchio和kNN 3种不同分类器的性能.
文本分類的特點是高維的特徵空間和高度的特徵冗餘.針對這兩箇特點,採用x2統計量處理高維的特徵空間,利用信息新穎度的思想處理高度的特徵冗餘,根據最大邊緣相關的定義,將二者有機結閤,提齣一種基于最大邊緣相關的特徵選擇方法.該方法可以在特徵選擇過程中減少大量的冗餘特徵.最後,在Reuters-21578 Topl0和OHSCAL兩箇文本數據集上進行實驗.實驗結果錶明,基于最大邊緣相關的特徵選擇方法比x2統計量和信息增益兩種特徵選擇方法更高效,併且能夠提高naive Bayes,Rocchio和kNN 3種不同分類器的性能.
문본분류적특점시고유적특정공간화고도적특정용여.침대저량개특점,채용x2통계량처리고유적특정공간,이용신식신영도적사상처리고도적특정용여,근거최대변연상관적정의,장이자유궤결합,제출일충기우최대변연상관적특정선택방법.해방법가이재특정선택과정중감소대량적용여특정.최후,재Reuters-21578 Topl0화OHSCAL량개문본수거집상진행실험.실험결과표명,기우최대변연상관적특정선택방법비x2통계량화신식증익량충특정선택방법경고효,병차능구제고naive Bayes,Rocchio화kNN 3충불동분류기적성능.