计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2015年
4期
670-675
,共6页
王淑芬%高军礼%邹普%宋海涛
王淑芬%高軍禮%鄒普%宋海濤
왕숙분%고군례%추보%송해도
分布式爬虫%Hadoop%爬虫框架%模板匹配%主题爬虫
分佈式爬蟲%Hadoop%爬蟲框架%模闆匹配%主題爬蟲
분포식파충%Hadoop%파충광가%모판필배%주제파충
WAN based distributed crawler%Hadoop%crawling system framework%templates matching%topic crawler
广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的.为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架.爬虫系统利用消息中间件实现分布式可靠通信,数据存储采用可伸缩的Hadoop分布式文件系统HDFS,网页解析利用MapReduce并行处理,并基于模板匹配实现框架可定制.系统的性能仿真显示该框架具有支撑大规模爬虫并发工作的能力.
廣域網分佈式爬蟲與跼域網爬蟲相比有諸多的優勢,而現有基于Hadoop分佈式爬蟲的設計主要是麵嚮跼域網環境的.為解決Hadoop分佈式計算平檯不適閤部署于廣域網的問題,設計瞭一箇基于Hadoop的廣域網分佈式爬蟲繫統框架.爬蟲繫統利用消息中間件實現分佈式可靠通信,數據存儲採用可伸縮的Hadoop分佈式文件繫統HDFS,網頁解析利用MapReduce併行處理,併基于模闆匹配實現框架可定製.繫統的性能倣真顯示該框架具有支撐大規模爬蟲併髮工作的能力.
엄역망분포식파충여국역망파충상비유제다적우세,이현유기우Hadoop분포식파충적설계주요시면향국역망배경적.위해결Hadoop분포식계산평태불괄합부서우엄역망적문제,설계료일개기우Hadoop적엄역망분포식파충계통광가.파충계통이용소식중간건실현분포식가고통신,수거존저채용가신축적Hadoop분포식문건계통HDFS,망혈해석이용MapReduce병행처리,병기우모판필배실현광가가정제.계통적성능방진현시해광가구유지탱대규모파충병발공작적능력.