地球
地毬
지구
EARTH
2014年
8期
235-237,234
,共4页
向量空间模型%词频倒排文档频%VSM%TFIDF
嚮量空間模型%詞頻倒排文檔頻%VSM%TFIDF
향량공간모형%사빈도배문당빈%VSM%TFIDF
TFIDF 公式是向量空间模型中应用比较成功的计算特征项权值的方法。研究发现,该公式忽略了特征项在文本集的分布比例和离散程度这两个影响特征项对文本表示贡献度的重要因素。为此,本文构造了一个平衡因子BF,并将其加权到 TFIDF 公式中,得到了修正后的公式 M-TFIDF。简单数值例子和中文文本聚类实验都表明, M-TFIDF 公式保留了 TFIDF 公式的优点并弥补了其缺陷,提高了向量空间模型对文本集的表示性能。
TFIDF 公式是嚮量空間模型中應用比較成功的計算特徵項權值的方法。研究髮現,該公式忽略瞭特徵項在文本集的分佈比例和離散程度這兩箇影響特徵項對文本錶示貢獻度的重要因素。為此,本文構造瞭一箇平衡因子BF,併將其加權到 TFIDF 公式中,得到瞭脩正後的公式 M-TFIDF。簡單數值例子和中文文本聚類實驗都錶明, M-TFIDF 公式保留瞭 TFIDF 公式的優點併瀰補瞭其缺陷,提高瞭嚮量空間模型對文本集的錶示性能。
TFIDF 공식시향량공간모형중응용비교성공적계산특정항권치적방법。연구발현,해공식홀략료특정항재문본집적분포비례화리산정도저량개영향특정항대문본표시공헌도적중요인소。위차,본문구조료일개평형인자BF,병장기가권도 TFIDF 공식중,득도료수정후적공식 M-TFIDF。간단수치례자화중문문본취류실험도표명, M-TFIDF 공식보류료 TFIDF 공식적우점병미보료기결함,제고료향량공간모형대문본집적표시성능。