计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2011年
1期
16-18,21
,共4页
特征分布%特征加权%文本分类
特徵分佈%特徵加權%文本分類
특정분포%특정가권%문본분류
传统tf.idf算法中的idf函数只能从宏观上评价特征区分不同文档的能力,无法反映特征在训练集各文档以及各类别中分布比例上的差异时特征权重计算结果的影响,降低文本表示的准确性.针对以上问题,提出一种改进的特征权重计算方法tf.ig igc.该方法从考察特征分布入手,通过引入信息论中信息增益的概念,实现对上述特征分布具体维度的综合考虑,克服传统公式存在的不足.实验结果表明,与tf.idf.ig和tf.idf.igc2种特征权重计算方法相比,tf.ig.igc在计算特征权重时更加有效.
傳統tf.idf算法中的idf函數隻能從宏觀上評價特徵區分不同文檔的能力,無法反映特徵在訓練集各文檔以及各類彆中分佈比例上的差異時特徵權重計算結果的影響,降低文本錶示的準確性.針對以上問題,提齣一種改進的特徵權重計算方法tf.ig igc.該方法從攷察特徵分佈入手,通過引入信息論中信息增益的概唸,實現對上述特徵分佈具體維度的綜閤攷慮,剋服傳統公式存在的不足.實驗結果錶明,與tf.idf.ig和tf.idf.igc2種特徵權重計算方法相比,tf.ig.igc在計算特徵權重時更加有效.
전통tf.idf산법중적idf함수지능종굉관상평개특정구분불동문당적능력,무법반영특정재훈련집각문당이급각유별중분포비례상적차이시특정권중계산결과적영향,강저문본표시적준학성.침대이상문제,제출일충개진적특정권중계산방법tf.ig igc.해방법종고찰특정분포입수,통과인입신식론중신식증익적개념,실현대상술특정분포구체유도적종합고필,극복전통공식존재적불족.실험결과표명,여tf.idf.ig화tf.idf.igc2충특정권중계산방법상비,tf.ig.igc재계산특정권중시경가유효.