软件导刊
軟件導刊
연건도간
SOFT WARE GUIDE
2015年
4期
67-69
,共3页
文本分类%TF-IDF算法%特征词权重%特征词分布%宏平均值
文本分類%TF-IDF算法%特徵詞權重%特徵詞分佈%宏平均值
문본분류%TF-IDF산법%특정사권중%특정사분포%굉평균치
在自动文本分类中,T F‐ID F算法是最为常用的特征权重计算方法。该算法运用广泛,但是存在不足:只考虑了特征词的频率和包含特征词的文档数量,没有考虑到特征词在类内和类间对权重的影响。对特征词权重计算方法进行了改进。为了解决特征词在类内均匀分布以及在类间的比重问题,提出了修正函数 T F‐DFI‐DFO。实验比较发现,新的特征词权重算法能够更加精确地反映出特征词的分布情况,该算法与传统的T F‐ID F算法相比,在召回率、查准率和宏平均值上都有较大的提升。
在自動文本分類中,T F‐ID F算法是最為常用的特徵權重計算方法。該算法運用廣汎,但是存在不足:隻攷慮瞭特徵詞的頻率和包含特徵詞的文檔數量,沒有攷慮到特徵詞在類內和類間對權重的影響。對特徵詞權重計算方法進行瞭改進。為瞭解決特徵詞在類內均勻分佈以及在類間的比重問題,提齣瞭脩正函數 T F‐DFI‐DFO。實驗比較髮現,新的特徵詞權重算法能夠更加精確地反映齣特徵詞的分佈情況,該算法與傳統的T F‐ID F算法相比,在召迴率、查準率和宏平均值上都有較大的提升。
재자동문본분류중,T F‐ID F산법시최위상용적특정권중계산방법。해산법운용엄범,단시존재불족:지고필료특정사적빈솔화포함특정사적문당수량,몰유고필도특정사재류내화류간대권중적영향。대특정사권중계산방법진행료개진。위료해결특정사재류내균균분포이급재류간적비중문제,제출료수정함수 T F‐DFI‐DFO。실험비교발현,신적특정사권중산법능구경가정학지반영출특정사적분포정황,해산법여전통적T F‐ID F산법상비,재소회솔、사준솔화굉평균치상도유교대적제승。