计算机应用研究
計算機應用研究
계산궤응용연구
Application Research of Computers
2015年
11期
3287-3290
,共4页
字符串相似度%相邻字符%词序%汉明距离
字符串相似度%相鄰字符%詞序%漢明距離
자부천상사도%상린자부%사서%한명거리
string similarity%adjacent character%word order%Hamming distance
针对传统字符串相似度算法复杂的局限,在向量空间模型(VSM)的基础上,提出一种同时考虑字符相邻位置关系和词序的字符串相似度计算模型。通过计算 VSM中向量的汉明距离来描述字符串相邻程度,并以向量的曼哈顿距离作为衡量字符先后次序的指标。最后对两个指标加权求和得到字符串相似度的定量描述。与传统的算法比较,该算法更简便,时间复杂度为 O(n log(n))。实验结果表明,该方法提高了字符串相似度的准确率,得到的数据结果更合理。
針對傳統字符串相似度算法複雜的跼限,在嚮量空間模型(VSM)的基礎上,提齣一種同時攷慮字符相鄰位置關繫和詞序的字符串相似度計算模型。通過計算 VSM中嚮量的漢明距離來描述字符串相鄰程度,併以嚮量的曼哈頓距離作為衡量字符先後次序的指標。最後對兩箇指標加權求和得到字符串相似度的定量描述。與傳統的算法比較,該算法更簡便,時間複雜度為 O(n log(n))。實驗結果錶明,該方法提高瞭字符串相似度的準確率,得到的數據結果更閤理。
침대전통자부천상사도산법복잡적국한,재향량공간모형(VSM)적기출상,제출일충동시고필자부상린위치관계화사서적자부천상사도계산모형。통과계산 VSM중향량적한명거리래묘술자부천상린정도,병이향량적만합돈거리작위형량자부선후차서적지표。최후대량개지표가권구화득도자부천상사도적정량묘술。여전통적산법비교,해산법경간편,시간복잡도위 O(n log(n))。실험결과표명,해방법제고료자부천상사도적준학솔,득도적수거결과경합리。
Aimed at the limitation of traditional string similarity complex algorithm,this paper proposed an algorithm based on vector space model to calculate string similarity,which fused both character adjacent position relation and word order informa-tion.This method described adjacent degree through computing Hamming distance of vector in VSM.Then it figured out word order similarity based on vector Manhattan distance.Finally,the algorithm presented quantitative description to string similari-ty fusing the word order and character adjacent degree.Compared with the traditional method,the proposed algorithm decrea-ses the time complexity to O(n log(n)).Experimental results show that the method improves precision rate and gets more rea-sonable data result.