计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2012年
11期
284-286
,共3页
Deep Web页面%反馈机制%爬行策略%聚焦爬虫%网络数据库%分类器
Deep Web頁麵%反饋機製%爬行策略%聚焦爬蟲%網絡數據庫%分類器
Deep Web혈면%반궤궤제%파행책략%취초파충%망락수거고%분류기
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取.为此,提出一种Deep Web爬虫爬行策略.用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件.实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率.
Deep Web包含豐富的、高質量的信息資源,由于沒有直接指嚮Deep Web頁麵的靜態鏈接,目前大多搜索引擎不能髮現這些頁麵,隻能通過填寫錶單提交查詢穫取.為此,提齣一種Deep Web爬蟲爬行策略.用網頁分類器的分層結果指導鏈接信息提取器提取有前途的鏈接,將爬行深度限定在3層,從最靠近查詢錶單中提取鏈接,且隻提取屬于這3箇層次的鏈接,從而減少爬蟲爬行時間,提高爬蟲的準確度,併設計聚焦爬行算法的約束條件.實驗結果錶明,該策略可以有效地下載Deep Web頁麵,提高爬行效率.
Deep Web포함봉부적、고질량적신식자원,유우몰유직접지향Deep Web혈면적정태련접,목전대다수색인경불능발현저사혈면,지능통과전사표단제교사순획취.위차,제출일충Deep Web파충파행책략.용망혈분류기적분층결과지도련접신식제취기제취유전도적련접,장파행심도한정재3층,종최고근사순표단중제취련접,차지제취속우저3개층차적련접,종이감소파충파행시간,제고파충적준학도,병설계취초파행산법적약속조건.실험결과표명,해책략가이유효지하재Deep Web혈면,제고파행효솔.