计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2013年
z2期
116-118,152
,共4页
文本分类%互信息%特征选择%负相关%频度
文本分類%互信息%特徵選擇%負相關%頻度
문본분류%호신식%특정선택%부상관%빈도
text categorization%Mutual Information (MI)%feature selection%negative correlation%frequency
在深入研究传统互信息特征选择方法的基础上,详细分析了该算法分类精确度不高的原因.针对传统互信息算法中的负相关现象以及倾向于选择低频特征词的问题,提出一种基于互信息的特征优化选择方法.该方法在综合考虑频度、集中度、分散度等因素的基础上,通过引入三个调整参数,有效地保证了负相关特征在文本分类中不可忽视的作用,并且提高了高频词汇的选择比重.实验表明,改进的方法可以有效地提高文本分类精度,并且具有更好的稳定性.
在深入研究傳統互信息特徵選擇方法的基礎上,詳細分析瞭該算法分類精確度不高的原因.針對傳統互信息算法中的負相關現象以及傾嚮于選擇低頻特徵詞的問題,提齣一種基于互信息的特徵優化選擇方法.該方法在綜閤攷慮頻度、集中度、分散度等因素的基礎上,通過引入三箇調整參數,有效地保證瞭負相關特徵在文本分類中不可忽視的作用,併且提高瞭高頻詞彙的選擇比重.實驗錶明,改進的方法可以有效地提高文本分類精度,併且具有更好的穩定性.
재심입연구전통호신식특정선택방법적기출상,상세분석료해산법분류정학도불고적원인.침대전통호신식산법중적부상관현상이급경향우선택저빈특정사적문제,제출일충기우호신식적특정우화선택방법.해방법재종합고필빈도、집중도、분산도등인소적기출상,통과인입삼개조정삼수,유효지보증료부상관특정재문본분류중불가홀시적작용,병차제고료고빈사회적선택비중.실험표명,개진적방법가이유효지제고문본분류정도,병차구유경호적은정성.