计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2006年
9期
1644-1650
,共7页
Web信息提取%包装器归纳学习%Web挖掘
Web信息提取%包裝器歸納學習%Web挖掘
Web신식제취%포장기귀납학습%Web알굴
高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集,再由多个模式组成的一致模式集提取数据,适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的表结构网页和层次结构网页,其有效性在原型系统中通过实验得到验证.
高效地生成提取Web信息的包裝器有著廣闊的應用前景,同時也是至今沒有得到有效解決的難題.為此,提齣瞭基于HTML文檔的模式代數,該代數包括一緻模式集等重要概唸以及模式的加法運算.在此基礎上,提齣瞭一種提取Web信息的新方法,該方法採用在整箇訓練例子中學習錶示各屬性提取規則的一緻模式集,再由多箇模式組成的一緻模式集提取數據,適用于提取具有缺省屬性、多值屬性、屬性具有多種不同順序的錶結構網頁和層次結構網頁,其有效性在原型繫統中通過實驗得到驗證.
고효지생성제취Web신식적포장기유착엄활적응용전경,동시야시지금몰유득도유효해결적난제.위차,제출료기우HTML문당적모식대수,해대수포괄일치모식집등중요개념이급모식적가법운산.재차기출상,제출료일충제취Web신식적신방법,해방법채용재정개훈련례자중학습표시각속성제취규칙적일치모식집,재유다개모식조성적일치모식집제취수거,괄용우제취구유결성속성、다치속성、속성구유다충불동순서적표결구망혈화층차결구망혈,기유효성재원형계통중통과실험득도험증.