电脑与电信
電腦與電信
전뇌여전신
COMPUTER & TELECOM
2011年
3期
30-31,37
,共3页
聚焦爬虫%Deep Web%PageRank%网站结构图剪枝%页面判断
聚焦爬蟲%Deep Web%PageRank%網站結構圖剪枝%頁麵判斷
취초파충%Deep Web%PageRank%망참결구도전지%혈면판단
聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep web)数据的关键一步.介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep web数据集成的质量和效率.
聚焦爬蟲是搜索引擎的網頁自動穫取程序,是搜索引擎髮現和索引深層網(Deep web)數據的關鍵一步.介紹瞭一種聚焦爬蟲,該爬蟲使用PageRank算法分析網頁的重要性,通過網站結構圖剪枝技術及頁麵判斷算法過濾與主題無關的URL,有效提高deep web數據集成的質量和效率.
취초파충시수색인경적망혈자동획취정서,시수색인경발현화색인심층망(Deep web)수거적관건일보.개소료일충취초파충,해파충사용PageRank산법분석망혈적중요성,통과망참결구도전지기술급혈면판단산법과려여주제무관적URL,유효제고deep web수거집성적질량화효솔.