网络新媒体技术
網絡新媒體技術
망락신매체기술
JOURNAL OF NETWORK NEW MEDIA
2013年
6期
1-7
,共7页
互联网%网页去重%指纹%编辑距离
互聯網%網頁去重%指紋%編輯距離
호련망%망혈거중%지문%편집거리
互联网中存在着大量的重复网页,在进行信息检索或大规模网页采集时,网页去重是提高效率的关键之一.本文在研究“指纹”或特征码等网页去重算法的基础上,提出了一种基于编辑距离的网页去重算法,通过计算网页指纹序列的编辑距离得到网页之间的相似度.它克服了“指纹”或特征码这类算法没有兼顾网页正文结构的缺点,同时从网页内容和正文结构上进行比较,使得网页重复的判断更加准确.实验证明,该算法是有效的,去重的准确率和召回率都比较高.
互聯網中存在著大量的重複網頁,在進行信息檢索或大規模網頁採集時,網頁去重是提高效率的關鍵之一.本文在研究“指紋”或特徵碼等網頁去重算法的基礎上,提齣瞭一種基于編輯距離的網頁去重算法,通過計算網頁指紋序列的編輯距離得到網頁之間的相似度.它剋服瞭“指紋”或特徵碼這類算法沒有兼顧網頁正文結構的缺點,同時從網頁內容和正文結構上進行比較,使得網頁重複的判斷更加準確.實驗證明,該算法是有效的,去重的準確率和召迴率都比較高.
호련망중존재착대량적중복망혈,재진행신식검색혹대규모망혈채집시,망혈거중시제고효솔적관건지일.본문재연구“지문”혹특정마등망혈거중산법적기출상,제출료일충기우편집거리적망혈거중산법,통과계산망혈지문서렬적편집거리득도망혈지간적상사도.타극복료“지문”혹특정마저류산법몰유겸고망혈정문결구적결점,동시종망혈내용화정문결구상진행비교,사득망혈중복적판단경가준학.실험증명,해산법시유효적,거중적준학솔화소회솔도비교고.