华东师范大学学报(自然科学版)
華東師範大學學報(自然科學版)
화동사범대학학보(자연과학판)
JOURNAL OF EAST CHINA NORMAL UNIVERSITY(NATURAL SCIENCE)
2010年
5期
96-102
,共7页
数据抽取%包装器%树对齐
數據抽取%包裝器%樹對齊
수거추취%포장기%수대제
针对从模板生成的网页中自动抽取web数据的问题,提出了一种新的树对齐算法.该算法能够确定输入网页的最大匹配结构.经过一系列的对齐操作之后,多棵树被合并成为一棵记录着合并前多个网页上的统计信息的合并树,树对齐算法可以发现合并树中的重复模式,在最可能内容块上构建包装器,并按照重复模式从网页上抽取数据.实验结果表明,该算法的抽取结果具有较高的准确性和良好的稳定性.
針對從模闆生成的網頁中自動抽取web數據的問題,提齣瞭一種新的樹對齊算法.該算法能夠確定輸入網頁的最大匹配結構.經過一繫列的對齊操作之後,多棵樹被閤併成為一棵記錄著閤併前多箇網頁上的統計信息的閤併樹,樹對齊算法可以髮現閤併樹中的重複模式,在最可能內容塊上構建包裝器,併按照重複模式從網頁上抽取數據.實驗結果錶明,該算法的抽取結果具有較高的準確性和良好的穩定性.
침대종모판생성적망혈중자동추취web수거적문제,제출료일충신적수대제산법.해산법능구학정수입망혈적최대필배결구.경과일계렬적대제조작지후,다과수피합병성위일과기록착합병전다개망혈상적통계신식적합병수,수대제산법가이발현합병수중적중복모식,재최가능내용괴상구건포장기,병안조중복모식종망혈상추취수거.실험결과표명,해산법적추취결과구유교고적준학성화량호적은정성.