软件导刊
軟件導刊
연건도간
SOFT WARE GUIDE
2013年
11期
135-137
,共3页
Heritrix%Hash%网络爬虫%增量抓取
Heritrix%Hash%網絡爬蟲%增量抓取
Heritrix%Hash%망락파충%증량조취
Heritrix%Hash%Web Cramler%Incremental
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的 Heritrix能够有效实现对网页的增量式抓取。
通過分析開源網絡爬蟲Heritrix的工作原理及架構,針對Heritrix開源爬蟲隻能對全網站進行通爬的特點,對Heritrix進行改進,增加瞭基于Hash算法的增量式抓取模塊。實驗錶明,改進的 Heritrix能夠有效實現對網頁的增量式抓取。
통과분석개원망락파충Heritrix적공작원리급가구,침대Heritrix개원파충지능대전망참진행통파적특점,대Heritrix진행개진,증가료기우Hash산법적증량식조취모괴。실험표명,개진적 Heritrix능구유효실현대망혈적증량식조취。
The working principle and structure analysis of open source web crawler Heritrix ,for the Heritrix open source crawler can only climb to the site features ,to improve Heritrix ,increase the incremental crawler module based on Hash algorithm .Experiments show that the improved Heritrix can achieve ,incremental crawl the webpage effectively .