中国海洋大学学报(自然科学版)
中國海洋大學學報(自然科學版)
중국해양대학학보(자연과학판)
PERIODICAL OF OCEAN UNIVERSITY OF CHINA
2015年
5期
114-119
,共6页
Deep Web%数据抽取%视觉信息%标签路径
Deep Web%數據抽取%視覺信息%標籤路徑
Deep Web%수거추취%시각신식%표첨로경
Deep Web%data extraction%visual feature%tag path
结合网页的视觉信息和DOM树结构,研究从Deep Web查询结果页面中抽取半结构化数据的问题.通过视觉块与整个网页的面积比定位数据区域.根据数据记录两两相邻等视觉特征找到包含数据记录的一组节点,并通过比较各节点的DOM树结构的相似度去除噪音节点.根据xpath属性将各条数据记录的数据项对齐.对整个抽取过程生成模板,可以使抽取效率得到很大提高.对8个Deep Web网站进行了抽取数据实验,结果表明本文方法是有效的.
結閤網頁的視覺信息和DOM樹結構,研究從Deep Web查詢結果頁麵中抽取半結構化數據的問題.通過視覺塊與整箇網頁的麵積比定位數據區域.根據數據記錄兩兩相鄰等視覺特徵找到包含數據記錄的一組節點,併通過比較各節點的DOM樹結構的相似度去除譟音節點.根據xpath屬性將各條數據記錄的數據項對齊.對整箇抽取過程生成模闆,可以使抽取效率得到很大提高.對8箇Deep Web網站進行瞭抽取數據實驗,結果錶明本文方法是有效的.
결합망혈적시각신식화DOM수결구,연구종Deep Web사순결과혈면중추취반결구화수거적문제.통과시각괴여정개망혈적면적비정위수거구역.근거수거기록량량상린등시각특정조도포함수거기록적일조절점,병통과비교각절점적DOM수결구적상사도거제조음절점.근거xpath속성장각조수거기록적수거항대제.대정개추취과정생성모판,가이사추취효솔득도흔대제고.대8개Deep Web망참진행료추취수거실험,결과표명본문방법시유효적.