计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2010年
30期
134-137
,共4页
文本分类%特征选择%类内集中度%分层递阶约简
文本分類%特徵選擇%類內集中度%分層遞階約簡
문본분류%특정선택%류내집중도%분층체계약간
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果.首先简单分析了几种经典的特征选择方法.总结了它们的不足,然后提出了类内集中度的概念,紧接着把分层递阶的思想引入粗糙集并提出了一个改进的基于分层递阶的属性约简算法,最后把该约简算法同类内集中度结合起来,提出了一个综合的特征选择方法.该方法首先利用类内集中度进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明此种特征选择方法效果良好.
特徵選擇是文本分類的關鍵步驟之一,所選特徵子集的優劣直接影響文本分類的結果.首先簡單分析瞭幾種經典的特徵選擇方法.總結瞭它們的不足,然後提齣瞭類內集中度的概唸,緊接著把分層遞階的思想引入粗糙集併提齣瞭一箇改進的基于分層遞階的屬性約簡算法,最後把該約簡算法同類內集中度結閤起來,提齣瞭一箇綜閤的特徵選擇方法.該方法首先利用類內集中度進行特徵初選以過濾掉一些詞條來降低特徵空間的稀疏性,然後利用所提約簡算法消除冗餘,從而穫得較具代錶性的特徵子集.實驗結果錶明此種特徵選擇方法效果良好.
특정선택시문본분류적관건보취지일,소선특정자집적우렬직접영향문본분류적결과.수선간단분석료궤충경전적특정선택방법.총결료타문적불족,연후제출료류내집중도적개념,긴접착파분층체계적사상인입조조집병제출료일개개진적기우분층체계적속성약간산법,최후파해약간산법동류내집중도결합기래,제출료일개종합적특정선택방법.해방법수선이용류내집중도진행특정초선이과려도일사사조래강저특정공간적희소성,연후이용소제약간산법소제용여,종이획득교구대표성적특정자집.실험결과표명차충특정선택방법효과량호.