科技资讯
科技資訊
과기자신
SCIENCE & TECHNOLOGY INFORMATION
2011年
21期
13-14
,共2页
爬虫%DNS%URL分配%分布式爬行
爬蟲%DNS%URL分配%分佈式爬行
파충%DNS%URL분배%분포식파행
爬虫作为网页搜索下载程序,其网络爬行性能决定了搜索引擎的性能和数据质量。本文通过分析聚焦爬虫的特点和网络环境,总结出三类制约爬行性能的主要问题,分别是DNS查询及缓存设置、内外部分布式爬行特点和网页URL静态与动态分配策略。结论为聚焦爬虫使用URL静态分配策略结合异步DNS查询及缓存设置,在内部分布式爬行时可有效提高网络爬行性能。
爬蟲作為網頁搜索下載程序,其網絡爬行性能決定瞭搜索引擎的性能和數據質量。本文通過分析聚焦爬蟲的特點和網絡環境,總結齣三類製約爬行性能的主要問題,分彆是DNS查詢及緩存設置、內外部分佈式爬行特點和網頁URL靜態與動態分配策略。結論為聚焦爬蟲使用URL靜態分配策略結閤異步DNS查詢及緩存設置,在內部分佈式爬行時可有效提高網絡爬行性能。
파충작위망혈수색하재정서,기망락파행성능결정료수색인경적성능화수거질량。본문통과분석취초파충적특점화망락배경,총결출삼류제약파행성능적주요문제,분별시DNS사순급완존설치、내외부분포식파행특점화망혈URL정태여동태분배책략。결론위취초파충사용URL정태분배책략결합이보DNS사순급완존설치,재내부분포식파행시가유효제고망락파행성능。