计算机应用研究
計算機應用研究
계산궤응용연구
APPLICATION RESEARCH OF COMPUTERS
2012年
3期
833-836
,共4页
向量空间模型%语义分析%词频%概率分布%文本相似度
嚮量空間模型%語義分析%詞頻%概率分佈%文本相似度
향량공간모형%어의분석%사빈%개솔분포%문본상사도
基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度.此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度.基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系.研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验.实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性.
基于統計的文本相似度量方法大多先採用TF-IDF方法將文本錶示為詞頻嚮量,然後利用餘絃計算文本之間的相似度.此類方法由于忽略文本中詞項的語義信息,不能很好地反映文本之間的相似度.基于語義的方法雖然能夠較好地瀰補這一缺陷,但需要知識庫來構建詞語之間的語義關繫.研究瞭以上兩類文本相似度計算方法的優缺點,提齣瞭一種新穎的文本相似度量方法,該方法首先對文本進行預處理,然後挑選TF-IDF值較高的詞項作為特徵項,再藉助HowNet語義詞典和TF-IDF方法對特徵項進行語義分析和詞頻統計相結閤的文本相似度計算,最後利用文本相似度在基準文本數據集閤上進行聚類實驗.實驗結果錶明,採用提齣的方法得到的F-度量值明顯優于隻採用TF-IDF方法或詞語語義的方法,從而證明瞭提齣的文本相似度計算方法的有效性.
기우통계적문본상사도량방법대다선채용TF-IDF방법장문본표시위사빈향량,연후이용여현계산문본지간적상사도.차류방법유우홀략문본중사항적어의신식,불능흔호지반영문본지간적상사도.기우어의적방법수연능구교호지미보저일결함,단수요지식고래구건사어지간적어의관계.연구료이상량류문본상사도계산방법적우결점,제출료일충신영적문본상사도량방법,해방법수선대문본진행예처리,연후도선TF-IDF치교고적사항작위특정항,재차조HowNet어의사전화TF-IDF방법대특정항진행어의분석화사빈통계상결합적문본상사도계산,최후이용문본상사도재기준문본수거집합상진행취류실험.실험결과표명,채용제출적방법득도적F-도량치명현우우지채용TF-IDF방법혹사어어의적방법,종이증명료제출적문본상사도계산방법적유효성.