计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2014年
7期
188-191
,共4页
文本分类%特征选择%互信息%特征频率%特征降维%类内分布
文本分類%特徵選擇%互信息%特徵頻率%特徵降維%類內分佈
문본분류%특정선택%호신식%특정빈솔%특정강유%류내분포
text classification%feature selection%Mutual Information(MI)%feature frequency%feature dimension reduction%distribution within class
互信息(MI)是一种常用的文本特征选择方法,经典MI方法未考虑同一个特征项在不同类别内频数的差异性,也未考虑同一个特征在同一类别内的不同文本之间分布上的差异性。针对上述不足,以特征项的频数为依据,分别从特征项的类内分布、类间分布上的差异以及类内不同文本之间分布上的差异等角度,通过引入特征项的类内频数因子、类内位置分布因子以及类间分布因子,提出一种改进的MI文本特征选择方法,使得特征项的频数信息在MI模型中得到有效利用,合理改善互信息模型在文本特征选择方面的不足。文本分类实验结果表明,改进MI文本特征选择方法的平均准确率、召回率分别提高约5.2%及4.6%,平均综合评价指标值提高约4.9%,有效提高了模型的文本分类效率。
互信息(MI)是一種常用的文本特徵選擇方法,經典MI方法未攷慮同一箇特徵項在不同類彆內頻數的差異性,也未攷慮同一箇特徵在同一類彆內的不同文本之間分佈上的差異性。針對上述不足,以特徵項的頻數為依據,分彆從特徵項的類內分佈、類間分佈上的差異以及類內不同文本之間分佈上的差異等角度,通過引入特徵項的類內頻數因子、類內位置分佈因子以及類間分佈因子,提齣一種改進的MI文本特徵選擇方法,使得特徵項的頻數信息在MI模型中得到有效利用,閤理改善互信息模型在文本特徵選擇方麵的不足。文本分類實驗結果錶明,改進MI文本特徵選擇方法的平均準確率、召迴率分彆提高約5.2%及4.6%,平均綜閤評價指標值提高約4.9%,有效提高瞭模型的文本分類效率。
호신식(MI)시일충상용적문본특정선택방법,경전MI방법미고필동일개특정항재불동유별내빈수적차이성,야미고필동일개특정재동일유별내적불동문본지간분포상적차이성。침대상술불족,이특정항적빈수위의거,분별종특정항적류내분포、류간분포상적차이이급류내불동문본지간분포상적차이등각도,통과인입특정항적류내빈수인자、류내위치분포인자이급류간분포인자,제출일충개진적MI문본특정선택방법,사득특정항적빈수신식재MI모형중득도유효이용,합리개선호신식모형재문본특정선택방면적불족。문본분류실험결과표명,개진MI문본특정선택방법적평균준학솔、소회솔분별제고약5.2%급4.6%,평균종합평개지표치제고약4.9%,유효제고료모형적문본분류효솔。
Mutual Information(MI) is a kind of text feature selection method commonly used. The classical mutual information method does not consider the same characteristic frequency in different categories of difference. And more, MI does not take into account the difference that the same feature in the same sort between different texts. Aiming at the shortcomings of MI model, the frequency feature as the basis, from the perspective of internal distribution category feature and from the point of the distribution among different types of feature, the model is optimized. Through the frequency factor and the factor distribution within class and the factor distribution between classes are introduced, the feature frequency information is used in the MI. This paper improves the MI efficiency in the text feature selection. Text classification experimental results show that the average accuracy rate, recall rate of the improved MI model are improved by about 5.2%and 4.6%. And more, the average F1 value increases by about 4.9%.