泰山学院学报
泰山學院學報
태산학원학보
JOURNAL OF TAISHAN UNIVERSITY
2015年
3期
18-22
,共5页
文本相似度算法%TF-IDF方法%词语关联%马尔可夫模型%文本分类
文本相似度算法%TF-IDF方法%詞語關聯%馬爾可伕模型%文本分類
문본상사도산법%TF-IDF방법%사어관련%마이가부모형%문본분류
传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词的权值,将得到的权值运用于向量空间模型和马尔可夫模型中,分别得到基于向量空间模型的基础相似度和基于马尔可夫模型的语义相似度,将语义相似度和基础相似度相结合,得到文本之间总体相似度.将改进的文本相似度算法运用于文本分类,实验结果表明,在搜狗文本分类语料库基础上,改进的算法相对于传统的文本相似度算法使得文本分类的准确率有了较大地提高.
傳統的文本相似度算法採用關鍵詞頻率錶示該關鍵詞在文檔中的重要程度,關鍵詞在類彆內不同文檔中的頻率波動使得關鍵詞的權值產生不穩定性,導緻文本之間的相似度運算不夠準確.本文提齣一種基于詞語信息量的改進的TF-IDF算法計算關鍵詞的權值,將得到的權值運用于嚮量空間模型和馬爾可伕模型中,分彆得到基于嚮量空間模型的基礎相似度和基于馬爾可伕模型的語義相似度,將語義相似度和基礎相似度相結閤,得到文本之間總體相似度.將改進的文本相似度算法運用于文本分類,實驗結果錶明,在搜狗文本分類語料庫基礎上,改進的算法相對于傳統的文本相似度算法使得文本分類的準確率有瞭較大地提高.
전통적문본상사도산법채용관건사빈솔표시해관건사재문당중적중요정도,관건사재유별내불동문당중적빈솔파동사득관건사적권치산생불은정성,도치문본지간적상사도운산불구준학.본문제출일충기우사어신식량적개진적TF-IDF산법계산관건사적권치,장득도적권치운용우향량공간모형화마이가부모형중,분별득도기우향량공간모형적기출상사도화기우마이가부모형적어의상사도,장어의상사도화기출상사도상결합,득도문본지간총체상사도.장개진적문본상사도산법운용우문본분류,실험결과표명,재수구문본분류어료고기출상,개진적산법상대우전통적문본상사도산법사득문본분류적준학솔유료교대지제고.