计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2009年
7期
202-203,210
,共3页
李朝%彭宏%叶苏南%张欢%杨亲遥
李朝%彭宏%葉囌南%張歡%楊親遙
리조%팽굉%협소남%장환%양친요
DOM树%信息抽取%可适应性
DOM樹%信息抽取%可適應性
DOM수%신식추취%가괄응성
Web信息抽取通常采用的是一种归纳学习方法,从给定的训练样本网页中学习到抽取规则,这种方法虽然能够准确地抽取出信息,但是当网站的模版发生改变后,必须重新获得抽取规则,因而这种抽取器的维护成本比较高,可适应性差.提出一种新的可适应性Web信息抽取方法,该方法首先通过聚类方法获取商品在网页中频繁出现的关键词组,然后利用网页的DOM树结构来确定包含这些关键词的信息块,从而实现Web信息的自动抽取.对大量商业网站进行信息抽取的实验表明,该算法不仅能有效抽取出商品信息,而且是一种与站点结构无关的可适应性信息抽取方法.
Web信息抽取通常採用的是一種歸納學習方法,從給定的訓練樣本網頁中學習到抽取規則,這種方法雖然能夠準確地抽取齣信息,但是噹網站的模版髮生改變後,必鬚重新穫得抽取規則,因而這種抽取器的維護成本比較高,可適應性差.提齣一種新的可適應性Web信息抽取方法,該方法首先通過聚類方法穫取商品在網頁中頻繁齣現的關鍵詞組,然後利用網頁的DOM樹結構來確定包含這些關鍵詞的信息塊,從而實現Web信息的自動抽取.對大量商業網站進行信息抽取的實驗錶明,該算法不僅能有效抽取齣商品信息,而且是一種與站點結構無關的可適應性信息抽取方法.
Web신식추취통상채용적시일충귀납학습방법,종급정적훈련양본망혈중학습도추취규칙,저충방법수연능구준학지추취출신식,단시당망참적모판발생개변후,필수중신획득추취규칙,인이저충추취기적유호성본비교고,가괄응성차.제출일충신적가괄응성Web신식추취방법,해방법수선통과취류방법획취상품재망혈중빈번출현적관건사조,연후이용망혈적DOM수결구래학정포함저사관건사적신식괴,종이실현Web신식적자동추취.대대량상업망참진행신식추취적실험표명,해산법불부능유효추취출상품신식,이차시일충여참점결구무관적가괄응성신식추취방법.