吉林师范大学学报(自然科学版)
吉林師範大學學報(自然科學版)
길림사범대학학보(자연과학판)
JILIN NORMAL UNIVERSITY JOURNAL(NATURAL SCIENCE EDITION)
2014年
4期
130-132
,共3页
文本文档%公共序列%相似度%字符串匹配
文本文檔%公共序列%相似度%字符串匹配
문본문당%공공서렬%상사도%자부천필배
text document%common sequence%similarity%string matching
首先对当前文本文档相似度计算方法的优缺点及适用范围进行了分析。由于越长的词语表达的意思一般越完整,基于这一思想,对不同长度的词语赋予不同的权值,把长度为 n 的公共序列引入到相似度的计算中,构造了一文本相似度计算公式,对其中相似度计算公式的合理性给予了理论证明。最后,通过实验证明该方法是有效的。
首先對噹前文本文檔相似度計算方法的優缺點及適用範圍進行瞭分析。由于越長的詞語錶達的意思一般越完整,基于這一思想,對不同長度的詞語賦予不同的權值,把長度為 n 的公共序列引入到相似度的計算中,構造瞭一文本相似度計算公式,對其中相似度計算公式的閤理性給予瞭理論證明。最後,通過實驗證明該方法是有效的。
수선대당전문본문당상사도계산방법적우결점급괄용범위진행료분석。유우월장적사어표체적의사일반월완정,기우저일사상,대불동장도적사어부여불동적권치,파장도위 n 적공공서렬인입도상사도적계산중,구조료일문본상사도계산공식,대기중상사도계산공식적합이성급여료이론증명。최후,통과실험증명해방법시유효적。
Firstly the merits and setbacks,application scopes and problems of existing methods were analyzed. Normally the longer the term,the more integrated it expressed. Based on this thought,the different weights were given to different long terms. Common sequence with length of n was introduced into the similarity computation and an equation was constructed about text similarity computation. Then the equation was theoretically proved to be reasonable. Finally the experiment results showed the method was validity.