计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2013年
1期
54-58
,共5页
成卫青%于静%杨晶%杨龙
成衛青%于靜%楊晶%楊龍
성위청%우정%양정%양룡
Web 信息抽取%正则表达式%页面分类%HTMLParser%结点树
Web 信息抽取%正則錶達式%頁麵分類%HTMLParser%結點樹
Web 신식추취%정칙표체식%혈면분류%HTMLParser%결점수
Web information extraction%regular expressions%page classification%HTMLParser%node tree
通过对现有 Web 信息抽取方法和当前 Web 网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的 Web 信息抽取方法,此方法能够完成对互联网上主流信息的提取.通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题.文中设计了一个完整的 Web 信息抽取模型,并给出了各功能模块的实现方法.该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性.最后用实验证实了文中方法的有效性与正确性.
通過對現有 Web 信息抽取方法和噹前 Web 網頁特點的分析,髮現現有抽取技術存在抽取頁麵類型固定和抽取結果不準確的問題,為瞭瀰補以上兩箇不足,文中提齣瞭一種基于頁麵分類的 Web 信息抽取方法,此方法能夠完成對互聯網上主流信息的提取.通過對頁麵進行分類和對頁麵主體的提取,分彆剋服傳統方法抽取頁麵類型固定和抽取結果不夠準確的問題.文中設計瞭一箇完整的 Web 信息抽取模型,併給齣瞭各功能模塊的實現方法.該模型包含頁麵主體提取、頁麵分類和信息抽取等模塊,併利用正則錶達式自動生成抽取規則,提高瞭抽取方法的通用性和準確性.最後用實驗證實瞭文中方法的有效性與正確性.
통과대현유 Web 신식추취방법화당전 Web 망혈특점적분석,발현현유추취기술존재추취혈면류형고정화추취결과불준학적문제,위료미보이상량개불족,문중제출료일충기우혈면분류적 Web 신식추취방법,차방법능구완성대호련망상주류신식적제취.통과대혈면진행분류화대혈면주체적제취,분별극복전통방법추취혈면류형고정화추취결과불구준학적문제.문중설계료일개완정적 Web 신식추취모형,병급출료각공능모괴적실현방법.해모형포함혈면주체제취、혈면분류화신식추취등모괴,병이용정칙표체식자동생성추취규칙,제고료추취방법적통용성화준학성.최후용실험증실료문중방법적유효성여정학성.
By means of analysis of existing Web information extraction and the current Web page characteristics,current extraction tech-niques are found to have problems that the types of extract page fixed and the extract results are not accurate. In order to make up for the deficiency mentioned above,propose a Web information extraction method based on page classification. This method is able to complete the extraction of the mainstream of information on the Internet page. By classifying the Web page and extracting the main body of the page,it overcomes the two problems existing in traditional method respectively. A complete model of the Web information extraction is designed and the details of each functional module are provided. The unique features of the model are containing modules of Web page principle part extraction and Web page classification,as well as using regular expression to generate extraction rules automatically that promote the generality and precision of the extraction method. Experimental results have verified the validity and accuracy of the method.