中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2015年
2期
157-162,178
,共7页
傅彦%徐昭邦%夏虎%周俊临
傅彥%徐昭邦%夏虎%週俊臨
부언%서소방%하호%주준림
逆向匹配%DOM树%模板构建%信息提取
逆嚮匹配%DOM樹%模闆構建%信息提取
역향필배%DOM수%모판구건%신식제취
reverse matching%DOM tree%template extraction%information extraction
Web页面中的主题信息一般分布比较集中,可利用网页的这一特性进行网页主题信息的自动提取.网页源代码中的HTML标签不规范,使得正向匹配难以生成嵌套结构准确的DOM树,该文提出一种通过逆向匹配的方法,构建完整的网页源代码DOM树.通过对DOM树进行剪枝,删除无关节点,对保留下来的信息块的节点标签进行人工选择与唯一性判定,从而生成提取模板.该方法能够实现对电子商务网站源网页中的主题信息进行提取,是一种半自动、通用的方法,可用于信息检索系统中的信息采集.
Web頁麵中的主題信息一般分佈比較集中,可利用網頁的這一特性進行網頁主題信息的自動提取.網頁源代碼中的HTML標籤不規範,使得正嚮匹配難以生成嵌套結構準確的DOM樹,該文提齣一種通過逆嚮匹配的方法,構建完整的網頁源代碼DOM樹.通過對DOM樹進行剪枝,刪除無關節點,對保留下來的信息塊的節點標籤進行人工選擇與唯一性判定,從而生成提取模闆.該方法能夠實現對電子商務網站源網頁中的主題信息進行提取,是一種半自動、通用的方法,可用于信息檢索繫統中的信息採集.
Web혈면중적주제신식일반분포비교집중,가이용망혈적저일특성진행망혈주제신식적자동제취.망혈원대마중적HTML표첨불규범,사득정향필배난이생성감투결구준학적DOM수,해문제출일충통과역향필배적방법,구건완정적망혈원대마DOM수.통과대DOM수진행전지,산제무관절점,대보류하래적신식괴적절점표첨진행인공선택여유일성판정,종이생성제취모판.해방법능구실현대전자상무망참원망혈중적주제신식진행제취,시일충반자동、통용적방법,가용우신식검색계통중적신식채집.