软件导刊
軟件導刊
연건도간
SOFT WARE GUIDE
2015年
5期
70-73
,共4页
重复文档%后缀树%句子块
重複文檔%後綴樹%句子塊
중복문당%후철수%구자괴
传统的重复文档检测方法是以单词或n-grams为单位提取特征,造成特征集合过于庞大。针对该缺点,提出以句子块作为文档特征的提取方法,将每个文档表示成句子长度序列,使用后缀树快速匹配公共子串。实验中,使用两个标准文档集与3种经典方法在有效性和效率方面进行比较,结果表明新算法有较高的准确率和效率。
傳統的重複文檔檢測方法是以單詞或n-grams為單位提取特徵,造成特徵集閤過于龐大。針對該缺點,提齣以句子塊作為文檔特徵的提取方法,將每箇文檔錶示成句子長度序列,使用後綴樹快速匹配公共子串。實驗中,使用兩箇標準文檔集與3種經典方法在有效性和效率方麵進行比較,結果錶明新算法有較高的準確率和效率。
전통적중복문당검측방법시이단사혹n-grams위단위제취특정,조성특정집합과우방대。침대해결점,제출이구자괴작위문당특정적제취방법,장매개문당표시성구자장도서렬,사용후철수쾌속필배공공자천。실험중,사용량개표준문당집여3충경전방법재유효성화효솔방면진행비교,결과표명신산법유교고적준학솔화효솔。