计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2004年
19期
135-138
,共4页
信息提取%包装器产生%DOM树
信息提取%包裝器產生%DOM樹
신식제취%포장기산생%DOM수
在Internet中存在着大量的半结构化的HTML网页.为了使用这些丰富的网页数据,需要将这些数据从网页中重新抽取出来.该文介绍了一种新的基于树状结构的信息提取方法和一个自动产生包装器的系统DAE(DOM basedAutomatic Extraction),将HTML网页数据转换为XML数据,在提取的过程中基本上不需要人工干预,因而实现了抽取过程的自动化.该方法可以应用于信息搜索agent中,或者应用于数据集成系统中等.
在Internet中存在著大量的半結構化的HTML網頁.為瞭使用這些豐富的網頁數據,需要將這些數據從網頁中重新抽取齣來.該文介紹瞭一種新的基于樹狀結構的信息提取方法和一箇自動產生包裝器的繫統DAE(DOM basedAutomatic Extraction),將HTML網頁數據轉換為XML數據,在提取的過程中基本上不需要人工榦預,因而實現瞭抽取過程的自動化.該方法可以應用于信息搜索agent中,或者應用于數據集成繫統中等.
재Internet중존재착대량적반결구화적HTML망혈.위료사용저사봉부적망혈수거,수요장저사수거종망혈중중신추취출래.해문개소료일충신적기우수상결구적신식제취방법화일개자동산생포장기적계통DAE(DOM basedAutomatic Extraction),장HTML망혈수거전환위XML수거,재제취적과정중기본상불수요인공간예,인이실현료추취과정적자동화.해방법가이응용우신식수색agent중,혹자응용우수거집성계통중등.