软件
軟件
연건
SOFT WARE
2014年
9期
16-20
,共5页
张昕%鄂海红%宋美娜%杨俊
張昕%鄂海紅%宋美娜%楊俊
장흔%악해홍%송미나%양준
Web信息抽取%模板%VIPS%DOM树%XPath
Web信息抽取%模闆%VIPS%DOM樹%XPath
Web신식추취%모판%VIPS%DOM수%XPath
随着网络技术的发展,互联网上出现了大量的就业信息,但信息数据零散的以不同的呈现方式展现在各种就业信息网站中.为了解决传统的Web信息抽取方法中准确率和效率相矛盾的问题,本文通过采用基于网页视觉特征的模板生成方法,提出了一种基于网页视觉特征的就业信息页面抽取方法,在保证抽取准确率的同时,尽可能减少人二干预.该方法通过分析网页视觉特征自动生成初始模板,并通过人工配置,生成最终网页抽取模板.通过此方法,实现了将互联网上零散的就业数据转换为统一的数据格式存储下来.实验结果表明,本文提出的抽取方法抽取的准确率和召回率都很高,取得了比较好的抽取结果.
隨著網絡技術的髮展,互聯網上齣現瞭大量的就業信息,但信息數據零散的以不同的呈現方式展現在各種就業信息網站中.為瞭解決傳統的Web信息抽取方法中準確率和效率相矛盾的問題,本文通過採用基于網頁視覺特徵的模闆生成方法,提齣瞭一種基于網頁視覺特徵的就業信息頁麵抽取方法,在保證抽取準確率的同時,儘可能減少人二榦預.該方法通過分析網頁視覺特徵自動生成初始模闆,併通過人工配置,生成最終網頁抽取模闆.通過此方法,實現瞭將互聯網上零散的就業數據轉換為統一的數據格式存儲下來.實驗結果錶明,本文提齣的抽取方法抽取的準確率和召迴率都很高,取得瞭比較好的抽取結果.
수착망락기술적발전,호련망상출현료대량적취업신식,단신식수거령산적이불동적정현방식전현재각충취업신식망참중.위료해결전통적Web신식추취방법중준학솔화효솔상모순적문제,본문통과채용기우망혈시각특정적모판생성방법,제출료일충기우망혈시각특정적취업신식혈면추취방법,재보증추취준학솔적동시,진가능감소인이간예.해방법통과분석망혈시각특정자동생성초시모판,병통과인공배치,생성최종망혈추취모판.통과차방법,실현료장호련망상령산적취업수거전환위통일적수거격식존저하래.실험결과표명,본문제출적추취방법추취적준학솔화소회솔도흔고,취득료비교호적추취결과.