计算机应用与软件
計算機應用與軟件
계산궤응용여연건
COMPUTER APPLICATIONS AND SOFTWARE
2008年
3期
263-264,277
,共3页
文本分类%最大熵模型%特征选取
文本分類%最大熵模型%特徵選取
문본분류%최대적모형%특정선취
网络信息浩如烟海又纷繁芜杂,从中掌握最有效的信息是信息处理的一大目标,而文本分类是组织和管理数据的有力手段.由于最大熵模型可以综合观察到的各种相关或不相关的概率知识,具有对许多问题的处理都可以达到较好的结果的优势,将最大熵模型引入到中文文本分类的研究中,并通过使用一种特征聚合的算法改进特征选择的有效性.实验表明与Bayes、KNN和SVM这三种性能优越的算法相比,基于最大熵的文本分类算法可取得较之更优的分类精度.
網絡信息浩如煙海又紛繁蕪雜,從中掌握最有效的信息是信息處理的一大目標,而文本分類是組織和管理數據的有力手段.由于最大熵模型可以綜閤觀察到的各種相關或不相關的概率知識,具有對許多問題的處理都可以達到較好的結果的優勢,將最大熵模型引入到中文文本分類的研究中,併通過使用一種特徵聚閤的算法改進特徵選擇的有效性.實驗錶明與Bayes、KNN和SVM這三種性能優越的算法相比,基于最大熵的文本分類算法可取得較之更優的分類精度.
망락신식호여연해우분번무잡,종중장악최유효적신식시신식처리적일대목표,이문본분류시조직화관리수거적유력수단.유우최대적모형가이종합관찰도적각충상관혹불상관적개솔지식,구유대허다문제적처리도가이체도교호적결과적우세,장최대적모형인입도중문문본분류적연구중,병통과사용일충특정취합적산법개진특정선택적유효성.실험표명여Bayes、KNN화SVM저삼충성능우월적산법상비,기우최대적적문본분류산법가취득교지경우적분류정도.