计算机与现代化
計算機與現代化
계산궤여현대화
COMPUTER AND MODERNIZATION
2009年
9期
30-31,35
,共3页
网页框架%正则表达式%数据提取%XML
網頁框架%正則錶達式%數據提取%XML
망혈광가%정칙표체식%수거제취%XML
针对特定搜索引擎的实际需求,需要从网站中提取有效的数据作为它的数据源.本文通过对网页内部结构的分析,利用正则表达式与XML配置文件相结合的方法,建立了基于特定网页的框架和规则的数据内容提取方法,并加以实现.该方法成功运用到多个信息提取系统中,实现了高效、准确的数据提取.
針對特定搜索引擎的實際需求,需要從網站中提取有效的數據作為它的數據源.本文通過對網頁內部結構的分析,利用正則錶達式與XML配置文件相結閤的方法,建立瞭基于特定網頁的框架和規則的數據內容提取方法,併加以實現.該方法成功運用到多箇信息提取繫統中,實現瞭高效、準確的數據提取.
침대특정수색인경적실제수구,수요종망참중제취유효적수거작위타적수거원.본문통과대망혈내부결구적분석,이용정칙표체식여XML배치문건상결합적방법,건립료기우특정망혈적광가화규칙적수거내용제취방법,병가이실현.해방법성공운용도다개신식제취계통중,실현료고효、준학적수거제취.