广西师范大学学报(自然科学版)
廣西師範大學學報(自然科學版)
엄서사범대학학보(자연과학판)
JOURNAL OF GUANGXI NORMAL UNIVERSITY(NATURAL SCIENCE EDITION)
2007年
2期
153-156
,共4页
张元丰%董守斌%张凌%陈晓志
張元豐%董守斌%張凌%陳曉誌
장원봉%동수빈%장릉%진효지
搜索引擎%网页消重%Map/Reduce
搜索引擎%網頁消重%Map/Reduce
수색인경%망혈소중%Map/Reduce
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量.提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能.
網頁消重模塊是搜索引擎繫統的重要組成部分,其作用是對搜索引擎的爬蟲繫統下載的網頁進行過濾,去除重複內容的網頁,從而提高搜索引擎爬蟲繫統的性能和檢索的質量.提齣瞭一種網頁消重的併行算法以及基于Map/Reduce的實現機製,併通過實際網站的實驗驗證瞭該消重算法的穩定性和處理大量網頁時的併行性能.
망혈소중모괴시수색인경계통적중요조성부분,기작용시대수색인경적파충계통하재적망혈진행과려,거제중복내용적망혈,종이제고수색인경파충계통적성능화검색적질량.제출료일충망혈소중적병행산법이급기우Map/Reduce적실현궤제,병통과실제망참적실험험증료해소중산법적은정성화처리대량망혈시적병행성능.