模式识别与人工智能
模式識彆與人工智能
모식식별여인공지능
Moshi Shibie yu Rengong Zhineng
2006年
4期
531-537
,共7页
文本分类%特征选择%信息增益%互信息%x2统计
文本分類%特徵選擇%信息增益%互信息%x2統計
문본분류%특정선택%신식증익%호신식%x2통계
为降低内容无关的特征词对文本分类系统的影响,在对与文本内容无关的特征词进行分析后发现:不相关特征词的词频普遍较低,利用最小词频阈值滤除低频特征可以明显降低无关特征的数量.为此,提出基于最小词频阈值的文档频评估函数.利用该函数选择特征可以有效减少与内容无关的噪声特征,改善分类质量.实验结果显示,几种基于最小词频阈值的文档频评估函数比基于普通文档频的评估函数的分类准确性有不同程度的改进,其中对互信息的改进最为显著,宏平均F1值比词频方法提高40%,比普通文档频方法提高15%~30%.
為降低內容無關的特徵詞對文本分類繫統的影響,在對與文本內容無關的特徵詞進行分析後髮現:不相關特徵詞的詞頻普遍較低,利用最小詞頻閾值濾除低頻特徵可以明顯降低無關特徵的數量.為此,提齣基于最小詞頻閾值的文檔頻評估函數.利用該函數選擇特徵可以有效減少與內容無關的譟聲特徵,改善分類質量.實驗結果顯示,幾種基于最小詞頻閾值的文檔頻評估函數比基于普通文檔頻的評估函數的分類準確性有不同程度的改進,其中對互信息的改進最為顯著,宏平均F1值比詞頻方法提高40%,比普通文檔頻方法提高15%~30%.
위강저내용무관적특정사대문본분류계통적영향,재대여문본내용무관적특정사진행분석후발현:불상관특정사적사빈보편교저,이용최소사빈역치려제저빈특정가이명현강저무관특정적수량.위차,제출기우최소사빈역치적문당빈평고함수.이용해함수선택특정가이유효감소여내용무관적조성특정,개선분류질량.실험결과현시,궤충기우최소사빈역치적문당빈평고함수비기우보통문당빈적평고함수적분류준학성유불동정도적개진,기중대호신식적개진최위현저,굉평균F1치비사빈방법제고40%,비보통문당빈방법제고15%~30%.