中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2003年
2期
28-35
,共8页
计算机应用%中文信息处理%特征串%模糊匹配%去重算法%冗余网页
計算機應用%中文信息處理%特徵串%模糊匹配%去重算法%冗餘網頁
계산궤응용%중문신식처리%특정천%모호필배%거중산법%용여망혈
网页检索结果中,用户经常会得到内容相同的冗余页面,其中大量是由于网站之间的转载造成.它们不但浪费了存储资源,并给用户的检索带来诸多不便.本文依据冗余网页的特点引入模糊匹配的思想,利用网页文本的内容、结构信息,提出了基于特征串的中文网页的快速去重算法,同时对算法进行了优化处理.实验结果表明该算法是有效的,大规模开放测试的重复网页召回率达97.3%,去重正确率达99.5%.
網頁檢索結果中,用戶經常會得到內容相同的冗餘頁麵,其中大量是由于網站之間的轉載造成.它們不但浪費瞭存儲資源,併給用戶的檢索帶來諸多不便.本文依據冗餘網頁的特點引入模糊匹配的思想,利用網頁文本的內容、結構信息,提齣瞭基于特徵串的中文網頁的快速去重算法,同時對算法進行瞭優化處理.實驗結果錶明該算法是有效的,大規模開放測試的重複網頁召迴率達97.3%,去重正確率達99.5%.
망혈검색결과중,용호경상회득도내용상동적용여혈면,기중대량시유우망참지간적전재조성.타문불단낭비료존저자원,병급용호적검색대래제다불편.본문의거용여망혈적특점인입모호필배적사상,이용망혈문본적내용、결구신식,제출료기우특정천적중문망혈적쾌속거중산법,동시대산법진행료우화처리.실험결과표명해산법시유효적,대규모개방측시적중복망혈소회솔체97.3%,거중정학솔체99.5%.