CAJ | 학술논문

간체로 보기 번체로 보기

基于DOM的Web信息抽取
기우DOM적Web신식추취
DOM based Web information extraction

万方数据

河北农业大学学报河北農業大學學報 하북농업대학학보
JOURNAL OF AGRICULTURAL UNIVERSITY OF HEBEI
2005年 3期 90-93 ,共4页

崔继馨%张鹏%杨文柱崔繼馨%張鵬%楊文柱

최계형%장붕%양문주

DOM%包装器%抽取规则%信息抽取 DOM%包裝器%抽取規則%信息抽取
DOM%포장기%추취규칙%신식추취

为解决因Web信息量巨大且具有动态性、不规则性,Web信息查询和Web信息集成存在很大困难,研究了对HTML格式的 Web文档的信息抽取,提出了一种基于DOM的Web信息抽取方法.该方法通过附加语义、样本学习生成基于DOM路径的抽取规则,利用遍历DOM树实现信息抽取.本方法可用于Web查询,也可用于信息集成系统中包装器的构造.
위해결인Web신식량거대차구유동태성、불규칙성,Web신식사순화Web신식집성존재흔대곤난,연구료대HTML격식적 Web문당적신식추취,제출료일충기우DOM적Web신식추취방법.해방법통과부가어의、양본학습생성기우DOM로경적추취규칙,이용편력DOM수실현신식추취.본방법가용우Web사순,야가용우신식집성계통중포장기적구조.