情报学报
情報學報
정보학보
2010年
3期
408-413
,共6页
泊松估计%语义特征%率失真理论%可控特征选择
泊鬆估計%語義特徵%率失真理論%可控特徵選擇
박송고계%어의특정%솔실진이론%가공특정선택
特征选择是文本分类的关键技术之一.本文提出一种基于泊松估计的可控特征选择算法,该算法以基于泊松假设估算的文档频率作为衡量特征语义信息的依据,以通信领域中的信息率失真理论作为可控特征选择的思想来源.在Reuters-21578新闻语料上进行的实验结果表明,基于泊松估计的特征选择算法性能优于基于语义的WN算法和同样基于统计的IG、Chi2等算法;在以特征漏选率作为信息率失真函数的前提下,设定分类算法分类指标下限值,则可以通过改变特征漏选率得到任意的分类精度值.实验表明本文算法在与相关算法的对比中存在优势.算法思想来源于通信领域中的信息率失真理论,也是一种在领域融合方面的崭新尝试.
特徵選擇是文本分類的關鍵技術之一.本文提齣一種基于泊鬆估計的可控特徵選擇算法,該算法以基于泊鬆假設估算的文檔頻率作為衡量特徵語義信息的依據,以通信領域中的信息率失真理論作為可控特徵選擇的思想來源.在Reuters-21578新聞語料上進行的實驗結果錶明,基于泊鬆估計的特徵選擇算法性能優于基于語義的WN算法和同樣基于統計的IG、Chi2等算法;在以特徵漏選率作為信息率失真函數的前提下,設定分類算法分類指標下限值,則可以通過改變特徵漏選率得到任意的分類精度值.實驗錶明本文算法在與相關算法的對比中存在優勢.算法思想來源于通信領域中的信息率失真理論,也是一種在領域融閤方麵的嶄新嘗試.
특정선택시문본분류적관건기술지일.본문제출일충기우박송고계적가공특정선택산법,해산법이기우박송가설고산적문당빈솔작위형량특정어의신식적의거,이통신영역중적신식솔실진이론작위가공특정선택적사상래원.재Reuters-21578신문어료상진행적실험결과표명,기우박송고계적특정선택산법성능우우기우어의적WN산법화동양기우통계적IG、Chi2등산법;재이특정루선솔작위신식솔실진함수적전제하,설정분류산법분류지표하한치,칙가이통과개변특정루선솔득도임의적분류정도치.실험표명본문산법재여상관산법적대비중존재우세.산법사상래원우통신영역중적신식솔실진이론,야시일충재영역융합방면적참신상시.