计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2007年
4期
210-212,221
,共4页
高强%张敬之%耿桦%潘金贵
高彊%張敬之%耿樺%潘金貴
고강%장경지%경화%반금귀
Web信息抽取%重复模式%后缀树
Web信息抽取%重複模式%後綴樹
Web신식추취%중복모식%후철수
网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式.根据这一特征,本文给出一种基于重复模式的Web内容抽取方法.通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实例中抽取出对应的数据记录.
網頁中的大量數據記錄往往以重複的HTML結構進行有規律的組織,從而形成一緻的錶現形式.根據這一特徵,本文給齣一種基于重複模式的Web內容抽取方法.通過使用一種叫做後綴樹的數據結構,分析頁麵結構中所包含的重複模式,進而從模式的實例中抽取齣對應的數據記錄.
망혈중적대량수거기록왕왕이중복적HTML결구진행유규률적조직,종이형성일치적표현형식.근거저일특정,본문급출일충기우중복모식적Web내용추취방법.통과사용일충규주후철수적수거결구,분석혈면결구중소포함적중복모식,진이종모식적실례중추취출대응적수거기록.