成都大学学报(自然科学版)
成都大學學報(自然科學版)
성도대학학보(자연과학판)
JOURNAL OF CHENGDU UNIVERSITY(NATURAL SCIENCE)
2014年
3期
251-253
,共3页
知网%语义相似度%VSM%文本相似度
知網%語義相似度%VSM%文本相似度
지망%어의상사도%VSM%문본상사도
计算文本相似度常用的方法是计算以VSM表示的文本之间的夹角余弦值,但这种方法并没有考虑文本中词语之间的语义相似度.另外由于计算余弦值时要考虑VSM向量对齐,从而导致计算的高维度、高复杂性.《知网》作为一个汉语常用的知识库得到广泛的研究,利用该知识库能方便地求得汉语词语之间的相似度.利用《知网》计算每篇文本中词语之间的相似度,对VSM进行改进,用少量特征词的TF/ IDF值作为改进后的VSM向量中的权重,进而计算文本之间的相似度.通过比较改进前后的VSM的维数、召回率和准确率,结果显示,改进后的算法明显降低了计算的复杂度并提高了召回率和准确率.
計算文本相似度常用的方法是計算以VSM錶示的文本之間的夾角餘絃值,但這種方法併沒有攷慮文本中詞語之間的語義相似度.另外由于計算餘絃值時要攷慮VSM嚮量對齊,從而導緻計算的高維度、高複雜性.《知網》作為一箇漢語常用的知識庫得到廣汎的研究,利用該知識庫能方便地求得漢語詞語之間的相似度.利用《知網》計算每篇文本中詞語之間的相似度,對VSM進行改進,用少量特徵詞的TF/ IDF值作為改進後的VSM嚮量中的權重,進而計算文本之間的相似度.通過比較改進前後的VSM的維數、召迴率和準確率,結果顯示,改進後的算法明顯降低瞭計算的複雜度併提高瞭召迴率和準確率.
계산문본상사도상용적방법시계산이VSM표시적문본지간적협각여현치,단저충방법병몰유고필문본중사어지간적어의상사도.령외유우계산여현치시요고필VSM향량대제,종이도치계산적고유도、고복잡성.《지망》작위일개한어상용적지식고득도엄범적연구,이용해지식고능방편지구득한어사어지간적상사도.이용《지망》계산매편문본중사어지간적상사도,대VSM진행개진,용소량특정사적TF/ IDF치작위개진후적VSM향량중적권중,진이계산문본지간적상사도.통과비교개진전후적VSM적유수、소회솔화준학솔,결과현시,개진후적산법명현강저료계산적복잡도병제고료소회솔화준학솔.