计算机与数字工程
計算機與數字工程
계산궤여수자공정
COMPUTER & DIGITAL ENGINEERING
2009年
7期
161-164,206
,共5页
动态异构%网页抽取%HtmlParser
動態異構%網頁抽取%HtmlParser
동태이구%망혈추취%HtmlParser
抽取动态异构Web信息以建立索引数据库供用户统一检索使用,是高校图书馆资源整合中的技术难点.通过对目标WEB站点表单提交方式和查询参数的研究和分析,使用Http模拟Post提交查询参数获得检索结果页面,基于开源项目HTMLParser包,以抽取CNKI文章检索结果入库为例,给出了算法及其实现的详细过程.
抽取動態異構Web信息以建立索引數據庫供用戶統一檢索使用,是高校圖書館資源整閤中的技術難點.通過對目標WEB站點錶單提交方式和查詢參數的研究和分析,使用Http模擬Post提交查詢參數穫得檢索結果頁麵,基于開源項目HTMLParser包,以抽取CNKI文章檢索結果入庫為例,給齣瞭算法及其實現的詳細過程.
추취동태이구Web신식이건립색인수거고공용호통일검색사용,시고교도서관자원정합중적기술난점.통과대목표WEB참점표단제교방식화사순삼수적연구화분석,사용Http모의Post제교사순삼수획득검색결과혈면,기우개원항목HTMLParser포,이추취CNKI문장검색결과입고위례,급출료산법급기실현적상세과정.