计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2012年
5期
1355-1358,1365
,共5页
李明涛%罗军勇%尹美娟%路林
李明濤%囉軍勇%尹美娟%路林
리명도%라군용%윤미연%로림
文本相似度%特征词权重%词义相似度%Chinese WordNet
文本相似度%特徵詞權重%詞義相似度%Chinese WordNet
문본상사도%특정사권중%사의상사도%Chinese WordNet
传统的基于向量空间模型的文本相似度计算方法,用TF-IDF计算文本特征词的权重,忽略了特征词之间的词义相似关系,不能准确地反映文本之间的相似程度.针对此问题,提出了结合词义的文本特征词权重计算方法,基于Chinese WordNet采用词义向量余弦计算特征词的词义相似度,根据词义相似度对特征词的TF-IDF权重进行修正,修正后的权重同时兼顾词频和词义信息.在哈尔滨工业大学信息检索研究室多文档自动文摘语料库上的实验结果表明,根据修正后的特征词权重计算文本相似度,能够有效地提高文本的类区分度.
傳統的基于嚮量空間模型的文本相似度計算方法,用TF-IDF計算文本特徵詞的權重,忽略瞭特徵詞之間的詞義相似關繫,不能準確地反映文本之間的相似程度.針對此問題,提齣瞭結閤詞義的文本特徵詞權重計算方法,基于Chinese WordNet採用詞義嚮量餘絃計算特徵詞的詞義相似度,根據詞義相似度對特徵詞的TF-IDF權重進行脩正,脩正後的權重同時兼顧詞頻和詞義信息.在哈爾濱工業大學信息檢索研究室多文檔自動文摘語料庫上的實驗結果錶明,根據脩正後的特徵詞權重計算文本相似度,能夠有效地提高文本的類區分度.
전통적기우향량공간모형적문본상사도계산방법,용TF-IDF계산문본특정사적권중,홀략료특정사지간적사의상사관계,불능준학지반영문본지간적상사정도.침대차문제,제출료결합사의적문본특정사권중계산방법,기우Chinese WordNet채용사의향량여현계산특정사적사의상사도,근거사의상사도대특정사적TF-IDF권중진행수정,수정후적권중동시겸고사빈화사의신식.재합이빈공업대학신식검색연구실다문당자동문적어료고상적실험결과표명,근거수정후적특정사권중계산문본상사도,능구유효지제고문본적류구분도.