现代图书情报技术
現代圖書情報技術
현대도서정보기술
NEW TECHNOLOGY OF LIBRARY AND INFORMATION SERVICE
2008年
6期
41-45
,共5页
网络爬虫%深度网络%ID3算法
網絡爬蟲%深度網絡%ID3算法
망락파충%심도망락%ID3산법
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法.对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果.
針對目前Web信息挖掘中存在的信息覆蓋率較低的問題,對網絡爬蟲繫統進行研究,提齣一種針對深度網絡的、基于ID3分類算法的Web頁麵收集方法.對Web頁麵的特徵進行分析、處理和分類,提取包含深度網頁的錶單,通過自動提交這些錶單來進行更深和更廣的頁麵穫取,實驗錶明該方法可以有效減少現有搜索引擎的盲區,改善搜索結果.
침대목전Web신식알굴중존재적신식복개솔교저적문제,대망락파충계통진행연구,제출일충침대심도망락적、기우ID3분류산법적Web혈면수집방법.대Web혈면적특정진행분석、처리화분류,제취포함심도망혈적표단,통과자동제교저사표단래진행경심화경엄적혈면획취,실험표명해방법가이유효감소현유수색인경적맹구,개선수색결과.