计算机光盘软件与应用
計算機光盤軟件與應用
계산궤광반연건여응용
COMPUTER CD SOFTWARE ADN APPLICATIONS
2012年
8期
135-136
,共2页
近似重复检测%模糊哈希算法%算法比较
近似重複檢測%模糊哈希算法%算法比較
근사중복검측%모호합희산법%산법비교
搜索引擎的爬行程序在日益庞大的互联网中采集到的网页包含有大量的重复或近似重复网页,这不仅降低了检索效率,增加了存储空间,还降低了最终用户的体验。本文针对现有的网页近似重复检测技术进行了比较.并重点讨论了改进的模糊哈希算法对网页内容进行近似重复检测。
搜索引擎的爬行程序在日益龐大的互聯網中採集到的網頁包含有大量的重複或近似重複網頁,這不僅降低瞭檢索效率,增加瞭存儲空間,還降低瞭最終用戶的體驗。本文針對現有的網頁近似重複檢測技術進行瞭比較.併重點討論瞭改進的模糊哈希算法對網頁內容進行近似重複檢測。
수색인경적파행정서재일익방대적호련망중채집도적망혈포함유대량적중복혹근사중복망혈,저불부강저료검색효솔,증가료존저공간,환강저료최종용호적체험。본문침대현유적망혈근사중복검측기술진행료비교.병중점토론료개진적모호합희산법대망혈내용진행근사중복검측。