应用科技
應用科技
응용과기
YING YONG KE JI
2009年
8期
52-55
,共4页
Web数据抽取%扩展DOM树%新颖度
Web數據抽取%擴展DOM樹%新穎度
Web수거추취%확전DOM수%신영도
Web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将Web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依据数据项角色抽取出数据,最后将对象数据保存为XML文档.通过实验分析,验证了这个方法具有较好的抽取效果.
Web數據抽取是噹前的一箇研究熱點,目前還沒有統一有效的抽取方法.在此提齣一種研究思路,首先將Web頁麵的DOM樹進行擴展,添加視覺特徵和鏈接特徵.然後計算多箇相似頁麵的擴展DOM樹中節點和子樹的新穎度,接著由新穎度識彆對象數據併且依據數據項角色抽取齣數據,最後將對象數據保存為XML文檔.通過實驗分析,驗證瞭這箇方法具有較好的抽取效果.
Web수거추취시당전적일개연구열점,목전환몰유통일유효적추취방법.재차제출일충연구사로,수선장Web혈면적DOM수진행확전,첨가시각특정화련접특정.연후계산다개상사혈면적확전DOM수중절점화자수적신영도,접착유신영도식별대상수거병차의거수거항각색추취출수거,최후장대상수거보존위XML문당.통과실험분석,험증료저개방법구유교호적추취효과.