计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2005年
14期
185-189,198
,共6页
Web%半结构化数据%信息抽取%Wrapper
Web%半結構化數據%信息抽取%Wrapper
Web%반결구화수거%신식추취%Wrapper
提出了基于表格结构及列表结构的Web页面信息自主抽取的方法.可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取.对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值.采用自学习的方法以适应网页信息的动态变化.
提齣瞭基于錶格結構及列錶結構的Web頁麵信息自主抽取的方法.可根據用戶對信息的需求自主地從相關頁麵中抽取信息併將抽取信息按關繫模型進行重組存放在數據庫中,對錶格結構信息源僅需標註一頁網頁,即可穫取抽取知識,通過自學習能夠較好地適應網頁信息的動態變化,實現信息的自動抽取.對列錶結構信息源信息,通過對DOM樹結構的分析,動態穫得信息塊在DOM層次結構中的路徑,根據信息對象基本的抽取知識,穫得信息對象值.採用自學習的方法以適應網頁信息的動態變化.
제출료기우표격결구급렬표결구적Web혈면신식자주추취적방법.가근거용호대신식적수구자주지종상관혈면중추취신식병장추취신식안관계모형진행중조존방재수거고중,대표격결구신식원부수표주일혈망혈,즉가획취추취지식,통과자학습능구교호지괄응망혈신식적동태변화,실현신식적자동추취.대렬표결구신식원신식,통과대DOM수결구적분석,동태획득신식괴재DOM층차결구중적로경,근거신식대상기본적추취지식,획득신식대상치.채용자학습적방법이괄응망혈신식적동태변화.