电子学报
電子學報
전자학보
ACTA ELECTRONICA SINICA
2002年
z1期
2008-2011
,共4页
叶允明%于水%马范援%宋晖%张岭
葉允明%于水%馬範援%宋暉%張嶺
협윤명%우수%마범원%송휘%장령
Web爬虫%爬行策略%分布式系统
Web爬蟲%爬行策略%分佈式繫統
Web파충%파행책략%분포식계통
本文介绍了一个大型分布式Web Crawler系统--Igloo 1.2版.它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageRank值作为网页质量评价的标准,从而提高了爬行质量.加快爬行速度的关键是如何解除Crawler系统中的性能瓶颈,本文对此也作了详细的讨论,并提出了一种基于"滞后合并"策略的URL数据库存取方法.实验表明,Igloo在保持高性能的同时能快速爬行到高质量的网页.
本文介紹瞭一箇大型分佈式Web Crawler繫統--Igloo 1.2版.它採用分佈式的繫統結構,通過我們設計的二級哈希映射算法使繫統可以進行高效的任務分割,併且繫統的規模動態可擴展.爬行網頁的質量是評價Crawler的一箇重要指標,Igloo以PageRank值作為網頁質量評價的標準,從而提高瞭爬行質量.加快爬行速度的關鍵是如何解除Crawler繫統中的性能瓶頸,本文對此也作瞭詳細的討論,併提齣瞭一種基于"滯後閤併"策略的URL數據庫存取方法.實驗錶明,Igloo在保持高性能的同時能快速爬行到高質量的網頁.
본문개소료일개대형분포식Web Crawler계통--Igloo 1.2판.타채용분포식적계통결구,통과아문설계적이급합희영사산법사계통가이진행고효적임무분할,병차계통적규모동태가확전.파행망혈적질량시평개Crawler적일개중요지표,Igloo이PageRank치작위망혈질량평개적표준,종이제고료파행질량.가쾌파행속도적관건시여하해제Crawler계통중적성능병경,본문대차야작료상세적토론,병제출료일충기우"체후합병"책략적URL수거고존취방법.실험표명,Igloo재보지고성능적동시능쾌속파행도고질량적망혈.