计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2013年
10期
309-312
,共4页
黄武冠%朱明%尹文科
黃武冠%硃明%尹文科
황무관%주명%윤문과
文档对象模型树%视觉特征%自动抽取%数据记录%数据区域%挖掘算法
文檔對象模型樹%視覺特徵%自動抽取%數據記錄%數據區域%挖掘算法
문당대상모형수%시각특정%자동추취%수거기록%수거구역%알굴산법
Document Object Model(DOM) tree%visual feature%automatic extraction%data recording%data region%mining algorithm
针对生活信息服务网站的列表式商户信息,提出一种基于文档对象模型(DOM)树和视觉特征的网页信息自动抽取方法。利用商户信息列表页面中数据区域的 DOM 树结构和视觉特征,搜索得到候选目标数据区域,再利用视觉特征识别真正目标数据区域,从而抽取其中的数据记录。对10个生活信息服务网站进行测试,结果表明,有8个网站的召回率和准确率达到100%,取得了较好的结果。
針對生活信息服務網站的列錶式商戶信息,提齣一種基于文檔對象模型(DOM)樹和視覺特徵的網頁信息自動抽取方法。利用商戶信息列錶頁麵中數據區域的 DOM 樹結構和視覺特徵,搜索得到候選目標數據區域,再利用視覺特徵識彆真正目標數據區域,從而抽取其中的數據記錄。對10箇生活信息服務網站進行測試,結果錶明,有8箇網站的召迴率和準確率達到100%,取得瞭較好的結果。
침대생활신식복무망참적렬표식상호신식,제출일충기우문당대상모형(DOM)수화시각특정적망혈신식자동추취방법。이용상호신식렬표혈면중수거구역적 DOM 수결구화시각특정,수색득도후선목표수거구역,재이용시각특정식별진정목표수거구역,종이추취기중적수거기록。대10개생활신식복무망참진행측시,결과표명,유8개망참적소회솔화준학솔체도100%,취득료교호적결과。
This paper proposes an automatic extraction method based on Document Object Model(DOM) tree and visual features for Web information to extract businesses information in list pages of life information websites. By analyzing and using DOM tree and visual features of data regions in list pages, the method can get the candidate target data regions firstly. The method identifies the target data region by making use of visual features and extracts data records finally. The method tests ten life information websites and achieves 100%recall and 100%precision on eight websites. The results show that the proposed method can get better results.