网络安全技术与应用
網絡安全技術與應用
망락안전기술여응용
NETWORK SECURITY TECHNOLOGIES & APPLICATION
2015年
3期
58-59
,共2页
复制检测%汉字部件%相似度距离%直方图
複製檢測%漢字部件%相似度距離%直方圖
복제검측%한자부건%상사도거리%직방도
现有文本复制检测技术均基于相似度计算,针对其模型特征表示高维稀疏、算法设计复杂低效等问题,本文提出了一种新的基于汉字部件直方图的文本复制检测算法.其基本原理是根据汉字的数学表达式理论将文本中的所有汉字进行部件拆分,对部件频率进行统计,构造文本汉字部件直方图,以其作为文本的特征表示并将其间的相似度距离值作为复制检测评估依据.通过实验确定了巴氏距离为直方图相似度距离的计算公式.对比实验结果表明本算法查准率、召回率、F1值方面具有可取性.
現有文本複製檢測技術均基于相似度計算,針對其模型特徵錶示高維稀疏、算法設計複雜低效等問題,本文提齣瞭一種新的基于漢字部件直方圖的文本複製檢測算法.其基本原理是根據漢字的數學錶達式理論將文本中的所有漢字進行部件拆分,對部件頻率進行統計,構造文本漢字部件直方圖,以其作為文本的特徵錶示併將其間的相似度距離值作為複製檢測評估依據.通過實驗確定瞭巴氏距離為直方圖相似度距離的計算公式.對比實驗結果錶明本算法查準率、召迴率、F1值方麵具有可取性.
현유문본복제검측기술균기우상사도계산,침대기모형특정표시고유희소、산법설계복잡저효등문제,본문제출료일충신적기우한자부건직방도적문본복제검측산법.기기본원리시근거한자적수학표체식이론장문본중적소유한자진행부건탁분,대부건빈솔진행통계,구조문본한자부건직방도,이기작위문본적특정표시병장기간적상사도거리치작위복제검측평고의거.통과실험학정료파씨거리위직방도상사도거리적계산공식.대비실험결과표명본산법사준솔、소회솔、F1치방면구유가취성.