计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2009年
4期
105-107
,共3页
网络爬行器%分布式%多线程
網絡爬行器%分佈式%多線程
망락파행기%분포식%다선정
目前单机版的网络爬行器已无法在一个有效的时间范围内完成一次搜集整个Web的任务.该文采用分布式网络爬行器加以解决.在分布式设计中,主要考虑节点内部多个线程的并行和节点之间的分布式并行,包括分布式网络爬行器的策略选择和动态可配置性2个方面.实验结果显示站点散列法基本达到了分布式设计的目标,在追求负载平衡的同时将系统的通信和管理开销降到最低.
目前單機版的網絡爬行器已無法在一箇有效的時間範圍內完成一次搜集整箇Web的任務.該文採用分佈式網絡爬行器加以解決.在分佈式設計中,主要攷慮節點內部多箇線程的併行和節點之間的分佈式併行,包括分佈式網絡爬行器的策略選擇和動態可配置性2箇方麵.實驗結果顯示站點散列法基本達到瞭分佈式設計的目標,在追求負載平衡的同時將繫統的通信和管理開銷降到最低.
목전단궤판적망락파행기이무법재일개유효적시간범위내완성일차수집정개Web적임무.해문채용분포식망락파행기가이해결.재분포식설계중,주요고필절점내부다개선정적병행화절점지간적분포식병행,포괄분포식망락파행기적책략선택화동태가배치성2개방면.실험결과현시참점산렬법기본체도료분포식설계적목표,재추구부재평형적동시장계통적통신화관리개소강도최저.