无线通信技术
無線通信技術
무선통신기술
WIRELESS COMMUNICATION TECHNOLOGY
2014年
3期
44-47,52
,共5页
Nutch%Hadoop%分布式文件系统%分布式爬虫
Nutch%Hadoop%分佈式文件繫統%分佈式爬蟲
Nutch%Hadoop%분포식문건계통%분포식파충
网络爬虫是互联网运行服务的重要组成部分,并为整个互联网、企业内部网和大型门户网站提供搜索和索引.为解决现有爬虫方法在效率方面的问题,本文介绍了Nutch分布式爬虫工作流程及机制,通过分析Hadoop下的Nutch网络爬虫,在Nutch分布式爬虫的参数方面、Hadoop的I/O模型和Nutch分布式爬虫小文件问题三个方面做了相关优化.实验结果表明,优化后的网络爬虫能更有效的爬取网络资源,能在较大程度上提升网络爬虫效率.
網絡爬蟲是互聯網運行服務的重要組成部分,併為整箇互聯網、企業內部網和大型門戶網站提供搜索和索引.為解決現有爬蟲方法在效率方麵的問題,本文介紹瞭Nutch分佈式爬蟲工作流程及機製,通過分析Hadoop下的Nutch網絡爬蟲,在Nutch分佈式爬蟲的參數方麵、Hadoop的I/O模型和Nutch分佈式爬蟲小文件問題三箇方麵做瞭相關優化.實驗結果錶明,優化後的網絡爬蟲能更有效的爬取網絡資源,能在較大程度上提升網絡爬蟲效率.
망락파충시호련망운행복무적중요조성부분,병위정개호련망、기업내부망화대형문호망참제공수색화색인.위해결현유파충방법재효솔방면적문제,본문개소료Nutch분포식파충공작류정급궤제,통과분석Hadoop하적Nutch망락파충,재Nutch분포식파충적삼수방면、Hadoop적I/O모형화Nutch분포식파충소문건문제삼개방면주료상관우화.실험결과표명,우화후적망락파충능경유효적파취망락자원,능재교대정도상제승망락파충효솔.