山东科学
山東科學
산동과학
SHANDONG SCIENCE
2015年
2期
101-107
,共7页
李晨%朱世伟%赵燕清%于俊凤
李晨%硃世偉%趙燕清%于俊鳳
리신%주세위%조연청%우준봉
Hadoop%MapReduce%网络爬虫%信息抽取%文本去重
Hadoop%MapReduce%網絡爬蟲%信息抽取%文本去重
Hadoop%MapReduce%망락파충%신식추취%문본거중
Hadoop%MapReduce%web crawler%information extraction%text deduplication
针对单机爬虫效率低、可扩展性差等问题,本文设计并实现了一种基于MapReduce的网络爬虫系统.该系统首先采用HDFS和HBase对网页信息进行存储管理,基于行块分布函数的方法进行网页信息抽取;然后通过URL和网页信息相似度分析相结合的去重策略,采用Simhash算法对抓取的网页信息进行相似度度量.实验结果表明,该系统具有良好的性能和可扩展性,较单机爬虫相比平均抓取速度提高了4.8倍.
針對單機爬蟲效率低、可擴展性差等問題,本文設計併實現瞭一種基于MapReduce的網絡爬蟲繫統.該繫統首先採用HDFS和HBase對網頁信息進行存儲管理,基于行塊分佈函數的方法進行網頁信息抽取;然後通過URL和網頁信息相似度分析相結閤的去重策略,採用Simhash算法對抓取的網頁信息進行相似度度量.實驗結果錶明,該繫統具有良好的性能和可擴展性,較單機爬蟲相比平均抓取速度提高瞭4.8倍.
침대단궤파충효솔저、가확전성차등문제,본문설계병실현료일충기우MapReduce적망락파충계통.해계통수선채용HDFS화HBase대망혈신식진행존저관리,기우행괴분포함수적방법진행망혈신식추취;연후통과URL화망혈신식상사도분석상결합적거중책략,채용Simhash산법대조취적망혈신식진행상사도도량.실험결과표명,해계통구유량호적성능화가확전성,교단궤파충상비평균조취속도제고료4.8배.