电脑知识与技术
電腦知識與技術
전뇌지식여기술
COMPUTER KNOWLEDGE AND TECHNOLOGY
2009年
19期
5111-5113
,共3页
Web信息采集%正则表达式%采集规则
Web信息採集%正則錶達式%採集規則
Web신식채집%정칙표체식%채집규칙
Web-information extraction%regular expressions%extraction rule
随着Internet的飞速发展.web已经发展成为一个巨大的信息资源库,但是目前web数据大都以HTML形式出现,这使得应用程序无法直接利用Web上的海量信息.针对这一问题,出现了Web信息采集技术.该文对信息采集技术进行了探讨,并在此基础上实现了一个基于web的新闻采集系统,该系统可根据用户使用正则表达式编写的采集规则快速而精确的采集目标网页中的信息,保存在本地数据库中,用于内部使用或外网发布.
隨著Internet的飛速髮展.web已經髮展成為一箇巨大的信息資源庫,但是目前web數據大都以HTML形式齣現,這使得應用程序無法直接利用Web上的海量信息.針對這一問題,齣現瞭Web信息採集技術.該文對信息採集技術進行瞭探討,併在此基礎上實現瞭一箇基于web的新聞採集繫統,該繫統可根據用戶使用正則錶達式編寫的採集規則快速而精確的採集目標網頁中的信息,保存在本地數據庫中,用于內部使用或外網髮佈.
수착Internet적비속발전.web이경발전성위일개거대적신식자원고,단시목전web수거대도이HTML형식출현,저사득응용정서무법직접이용Web상적해량신식.침대저일문제,출현료Web신식채집기술.해문대신식채집기술진행료탐토,병재차기출상실현료일개기우web적신문채집계통,해계통가근거용호사용정칙표체식편사적채집규칙쾌속이정학적채집목표망혈중적신식,보존재본지수거고중,용우내부사용혹외망발포.
With the rapid development of Internet, Web has become a huge, distribution and sharing of information resources library. But most of Web-data are represented with HTML. So the massive Web-data are not available to the applications. For this purpose, the technology of Web-information extraction appeared.In this thesis, we discussed the technology of information extraction, and on this basis to achieve a Web-based news extraction system,which users can use regular expressions to make extraction rule and use it to extarct the Web-information quickly and accurately, save in local database, for internal use or released them to the Intemet.