南京邮电大学学报(自然科学版)
南京郵電大學學報(自然科學版)
남경유전대학학보(자연과학판)
JOURNAL OF NANJING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS(NATURAL SCIENCE)
2013年
5期
63-68
,共6页
特征选择%文本分类%评价函数%互信息%信息熵
特徵選擇%文本分類%評價函數%互信息%信息熵
특정선택%문본분류%평개함수%호신식%신식적
feature selection%text classification%evaluation function%mutual information%information entropy
互信息是一种常用的特征选择评价函数,但研究表明它会导致分类精度相对较低.文中针对互信息倾向选择低频词的不足,提出了一种新的特征评价函数TFMIIE,将信息熵和改进互信息相结合,其中改进互信息能够避免偏向低频的生僻词,而特征熵有利于去除类别不确定的特征词.实验结果表明,采用TFMIIE进行特征选择,用得到的特征子集表示文本和构建分类器,文本分类的准确率与召回率比采用互信息的方法提高了约40%,验证了所提出的基于改进互信息和信息熵的文本特征选择方法是有效的.
互信息是一種常用的特徵選擇評價函數,但研究錶明它會導緻分類精度相對較低.文中針對互信息傾嚮選擇低頻詞的不足,提齣瞭一種新的特徵評價函數TFMIIE,將信息熵和改進互信息相結閤,其中改進互信息能夠避免偏嚮低頻的生僻詞,而特徵熵有利于去除類彆不確定的特徵詞.實驗結果錶明,採用TFMIIE進行特徵選擇,用得到的特徵子集錶示文本和構建分類器,文本分類的準確率與召迴率比採用互信息的方法提高瞭約40%,驗證瞭所提齣的基于改進互信息和信息熵的文本特徵選擇方法是有效的.
호신식시일충상용적특정선택평개함수,단연구표명타회도치분류정도상대교저.문중침대호신식경향선택저빈사적불족,제출료일충신적특정평개함수TFMIIE,장신식적화개진호신식상결합,기중개진호신식능구피면편향저빈적생벽사,이특정적유리우거제유별불학정적특정사.실험결과표명,채용TFMIIE진행특정선택,용득도적특정자집표시문본화구건분류기,문본분류적준학솔여소회솔비채용호신식적방법제고료약40%,험증료소제출적기우개진호신식화신식적적문본특정선택방법시유효적.