计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2014年
1期
327-332
,共6页
顾韵华%高原%高宝%杜杰
顧韻華%高原%高寶%杜傑
고운화%고원%고보%두걸
Deep Web%信息抽取%模板%领域本体%决策树
Deep Web%信息抽取%模闆%領域本體%決策樹
Deep Web%신식추취%모판%영역본체%결책수
Deep Web%information extraction%template%domain ontology%decision tree
为简化模板的抽取规则、提高抽取的准确率,提出了一种基于双模板和领域本体的Deep Web信息抽取方法.该方法采用DIV块模板和表格模板结合的方法,建立双模板.利用基于中文分词的网页预处理结果,在领域本体知识的指导下,通过C4.5决策树算法来训练分类模型,筛选出待抽取的DIV块序号,构建DIV块模板,从而可以精确定位到数据块.利用XML技术构建XSLT文档,得到表格模板的抽取规则,从而抽取出数据片段.选取天气领域进行Deep Web信息抽取实验,实验结果表明,抽取准确率和召回率都可以达到95%以上,取得了较好的抽取效果.
為簡化模闆的抽取規則、提高抽取的準確率,提齣瞭一種基于雙模闆和領域本體的Deep Web信息抽取方法.該方法採用DIV塊模闆和錶格模闆結閤的方法,建立雙模闆.利用基于中文分詞的網頁預處理結果,在領域本體知識的指導下,通過C4.5決策樹算法來訓練分類模型,篩選齣待抽取的DIV塊序號,構建DIV塊模闆,從而可以精確定位到數據塊.利用XML技術構建XSLT文檔,得到錶格模闆的抽取規則,從而抽取齣數據片段.選取天氣領域進行Deep Web信息抽取實驗,實驗結果錶明,抽取準確率和召迴率都可以達到95%以上,取得瞭較好的抽取效果.
위간화모판적추취규칙、제고추취적준학솔,제출료일충기우쌍모판화영역본체적Deep Web신식추취방법.해방법채용DIV괴모판화표격모판결합적방법,건립쌍모판.이용기우중문분사적망혈예처리결과,재영역본체지식적지도하,통과C4.5결책수산법래훈련분류모형,사선출대추취적DIV괴서호,구건DIV괴모판,종이가이정학정위도수거괴.이용XML기술구건XSLT문당,득도표격모판적추취규칙,종이추취출수거편단.선취천기영역진행Deep Web신식추취실험,실험결과표명,추취준학솔화소회솔도가이체도95%이상,취득료교호적추취효과.