计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2010年
9期
197-199,202
,共4页
向量空间模型%文本分类%特征权重%特征分布
嚮量空間模型%文本分類%特徵權重%特徵分佈
향량공간모형%문본분류%특정권중%특정분포
TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况.为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数.实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%.
TF-IDF是一種在文本分類領域穫得廣汎應用的特徵詞權重算法,著重攷慮瞭詞頻與逆文檔頻等因素,但無法把握特徵詞在類間與類內的分佈情況.為提高在同類中頻繁齣現、類內均勻分佈的具有代錶性的特徵詞權重,引入特徵詞分佈集中度繫數改進IDF函數、用分散度繫數進行加權,提齣TF-IIDF-DIC權重函數.實驗結果錶明,基于TF-IIDF-DIC權重算法的K-NN文本分類宏平均F1值比TF-IDF算法提高瞭6.79%.
TF-IDF시일충재문본분류영역획득엄범응용적특정사권중산법,착중고필료사빈여역문당빈등인소,단무법파악특정사재류간여류내적분포정황.위제고재동류중빈번출현、류내균균분포적구유대표성적특정사권중,인입특정사분포집중도계수개진IDF함수、용분산도계수진행가권,제출TF-IIDF-DIC권중함수.실험결과표명,기우TF-IIDF-DIC권중산법적K-NN문본분류굉평균F1치비TF-IDF산법제고료6.79%.