计算机科学与探索
計算機科學與探索
계산궤과학여탐색
JOURNAL OF FRONTIERS OF COMPUTER SCIENCE & TECHNOLOGY
2014年
9期
1049-1066
,共18页
王海涛%张志亮%孙煜华%袁春风%黄宜华
王海濤%張誌亮%孫煜華%袁春風%黃宜華
왕해도%장지량%손욱화%원춘풍%황의화
Web信息抽取%自动浏览导航%数据集成%流程控制%规则语言
Web信息抽取%自動瀏覽導航%數據集成%流程控製%規則語言
Web신식추취%자동류람도항%수거집성%류정공제%규칙어언
Web information extraction%automated Web navigation%data integration%workflow control%rule language
We b中蕴藏着大量有价值的数据,过去十几年中,针对We b信息抽取技术已有较多的研究。而现有的研究和系统多集中在数据抽取处理阶段,忽略或简化了完整的We b信息抽取过程需要的网页自动浏览导航和集成处理。为克服这些不足,提出了包含浏览导航、数据抽取和集成过程的三阶段We b信息抽取处理模型,基于此进一步研究提出了自动浏览导航模型,并设计实现了网页自动浏览导航规则语言。研究提出了一种We b数据抽取、转换和集成(extraction-transformation-integration,ETI)模型,设计实现了一套灵活有效的数据集成和流程控制规则语言,能有效地维护跨网页数据记录的复杂关系,并提供灵活的流程控制能力。抽取实例的结果表明,该规则语言和系统可有效完成全过程化的We b信息抽取集成处理功能。
We b中蘊藏著大量有價值的數據,過去十幾年中,針對We b信息抽取技術已有較多的研究。而現有的研究和繫統多集中在數據抽取處理階段,忽略或簡化瞭完整的We b信息抽取過程需要的網頁自動瀏覽導航和集成處理。為剋服這些不足,提齣瞭包含瀏覽導航、數據抽取和集成過程的三階段We b信息抽取處理模型,基于此進一步研究提齣瞭自動瀏覽導航模型,併設計實現瞭網頁自動瀏覽導航規則語言。研究提齣瞭一種We b數據抽取、轉換和集成(extraction-transformation-integration,ETI)模型,設計實現瞭一套靈活有效的數據集成和流程控製規則語言,能有效地維護跨網頁數據記錄的複雜關繫,併提供靈活的流程控製能力。抽取實例的結果錶明,該規則語言和繫統可有效完成全過程化的We b信息抽取集成處理功能。
We b중온장착대량유개치적수거,과거십궤년중,침대We b신식추취기술이유교다적연구。이현유적연구화계통다집중재수거추취처리계단,홀략혹간화료완정적We b신식추취과정수요적망혈자동류람도항화집성처리。위극복저사불족,제출료포함류람도항、수거추취화집성과정적삼계단We b신식추취처리모형,기우차진일보연구제출료자동류람도항모형,병설계실현료망혈자동류람도항규칙어언。연구제출료일충We b수거추취、전환화집성(extraction-transformation-integration,ETI)모형,설계실현료일투령활유효적수거집성화류정공제규칙어언,능유효지유호과망혈수거기록적복잡관계,병제공령활적류정공제능력。추취실례적결과표명,해규칙어언화계통가유효완성전과정화적We b신식추취집성처리공능。
Web contains large amount of valuable data information. Many Web information extraction techniques have been studied in past decade. However, most of existing studies and systems focus on data extraction processing from acquired Web pages, and ignore or simplify the automated navigation and data integration processes. To solve the problem, this paper proposes a three-stage Web information extraction model including automated navigation, data extraction and data integration. Based on this model, this paper designs a navigation model along with an auto-mated navigation rule language. Furthermore, this paper proposes an ETI (extraction-transformation-integration) model and an integration and workflow control rule language, which can effectively maintain the complex relation-ship for cross-page data record and provide flexible workflow control. Extraction results show that the proposed rule language and the implemented system can effectively achieve Web page navigation and data extraction.