河北农业大学学报
河北農業大學學報
하북농업대학학보
JOURNAL OF AGRICULTURAL UNIVERSITY OF HEBEI
2005年
3期
90-93
,共4页
DOM%包装器%抽取规则%信息抽取
DOM%包裝器%抽取規則%信息抽取
DOM%포장기%추취규칙%신식추취
为解决因Web信息量巨大且具有动态性、不规则性,Web信息查询和Web信息集成存在很大困难,研究了对HTML格式的 Web文档的信息抽取,提出了一种基于DOM的Web信息抽取方法.该方法通过附加语义、样本学习生成基于DOM路径的抽取规则,利用遍历DOM树实现信息抽取.本方法可用于Web查询,也可用于信息集成系统中包装器的构造.
為解決因Web信息量巨大且具有動態性、不規則性,Web信息查詢和Web信息集成存在很大睏難,研究瞭對HTML格式的 Web文檔的信息抽取,提齣瞭一種基于DOM的Web信息抽取方法.該方法通過附加語義、樣本學習生成基于DOM路徑的抽取規則,利用遍歷DOM樹實現信息抽取.本方法可用于Web查詢,也可用于信息集成繫統中包裝器的構造.
위해결인Web신식량거대차구유동태성、불규칙성,Web신식사순화Web신식집성존재흔대곤난,연구료대HTML격식적 Web문당적신식추취,제출료일충기우DOM적Web신식추취방법.해방법통과부가어의、양본학습생성기우DOM로경적추취규칙,이용편력DOM수실현신식추취.본방법가용우Web사순,야가용우신식집성계통중포장기적구조.