计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2014年
6期
204-207
,共4页
关键词提取%特征权重%TFIDF%DI-TFIDF
關鍵詞提取%特徵權重%TFIDF%DI-TFIDF
관건사제취%특정권중%TFIDF%DI-TFIDF
Keywords extraction%Term-weighting%TFIDF%DI-TFIDF
关键词提取技术是信息检索和文本分类领域的基础与关键技术之一.首先分析了TFIDF算法中存在的不足,即IDF(InverseDocument Frequency)权值中没有考虑特征词在类内以及类别间的分布情况.因此,原有的TFIDF方法会出现有些不能代表文档主题的低频词的IDF值很高,而有些能够代表文档主题的高频词的IDF值却很低的情况,这会导致关键词提取不准确.通过增加一个新的权值,即类内离散度DI(Distribution Information)来增加关键的特征词条的权重,提出了一种新的算法DI-TFIDF.实验中使用的是搜狗语料库,选择其中的体育、教育和军事3类文档各1000篇作为实验的语料库,分别用基于传统TFIDF方法和基于DI-TFIDF方法提取关键词.实验结果表明,所提出的DI-TFIDF方法提取关键词的准确度要高于传统的TFIDF算法.
關鍵詞提取技術是信息檢索和文本分類領域的基礎與關鍵技術之一.首先分析瞭TFIDF算法中存在的不足,即IDF(InverseDocument Frequency)權值中沒有攷慮特徵詞在類內以及類彆間的分佈情況.因此,原有的TFIDF方法會齣現有些不能代錶文檔主題的低頻詞的IDF值很高,而有些能夠代錶文檔主題的高頻詞的IDF值卻很低的情況,這會導緻關鍵詞提取不準確.通過增加一箇新的權值,即類內離散度DI(Distribution Information)來增加關鍵的特徵詞條的權重,提齣瞭一種新的算法DI-TFIDF.實驗中使用的是搜狗語料庫,選擇其中的體育、教育和軍事3類文檔各1000篇作為實驗的語料庫,分彆用基于傳統TFIDF方法和基于DI-TFIDF方法提取關鍵詞.實驗結果錶明,所提齣的DI-TFIDF方法提取關鍵詞的準確度要高于傳統的TFIDF算法.
관건사제취기술시신식검색화문본분류영역적기출여관건기술지일.수선분석료TFIDF산법중존재적불족,즉IDF(InverseDocument Frequency)권치중몰유고필특정사재류내이급유별간적분포정황.인차,원유적TFIDF방법회출현유사불능대표문당주제적저빈사적IDF치흔고,이유사능구대표문당주제적고빈사적IDF치각흔저적정황,저회도치관건사제취불준학.통과증가일개신적권치,즉류내리산도DI(Distribution Information)래증가관건적특정사조적권중,제출료일충신적산법DI-TFIDF.실험중사용적시수구어료고,선택기중적체육、교육화군사3류문당각1000편작위실험적어료고,분별용기우전통TFIDF방법화기우DI-TFIDF방법제취관건사.실험결과표명,소제출적DI-TFIDF방법제취관건사적준학도요고우전통적TFIDF산법.