计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2009年
23期
5506-5509
,共4页
无秩树自动机%信息抽取%结构(半结构)化文档%(k,l)-contextual树%文法推理
無秩樹自動機%信息抽取%結構(半結構)化文檔%(k,l)-contextual樹%文法推理
무질수자동궤%신식추취%결구(반결구)화문당%(k,l)-contextual수%문법추리
unranked tree automata%information extraction%(semi-)structured documents%(k,l)-contextual tree language%grammar inference
针对目前基于网页结构的信息抽取方法的缺陷,提出了一种基于无秩树自动机的信息抽取技术,其核心思想是通过将结构化(半结构化)文档转换成无秩树,然后利用(k,l)-contextual树构造样本自动机,依据树自动机接收和拒绝状态来对网页进行数据的抽取.该方法充分利用结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则.实验结果表明,该方法与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高.
針對目前基于網頁結構的信息抽取方法的缺陷,提齣瞭一種基于無秩樹自動機的信息抽取技術,其覈心思想是通過將結構化(半結構化)文檔轉換成無秩樹,然後利用(k,l)-contextual樹構造樣本自動機,依據樹自動機接收和拒絕狀態來對網頁進行數據的抽取.該方法充分利用結構,依託樹自動機將傳統的以單一結構途徑的信息抽取方法與文法推理原則相結閤,得到信息抽取規則.實驗結果錶明,該方法與同類抽取方法相比在準確率、召迴率以及抽取所需時間上均有所提高.
침대목전기우망혈결구적신식추취방법적결함,제출료일충기우무질수자동궤적신식추취기술,기핵심사상시통과장결구화(반결구화)문당전환성무질수,연후이용(k,l)-contextual수구조양본자동궤,의거수자동궤접수화거절상태래대망혈진행수거적추취.해방법충분이용결구,의탁수자동궤장전통적이단일결구도경적신식추취방법여문법추리원칙상결합,득도신식추취규칙.실험결과표명,해방법여동류추취방법상비재준학솔、소회솔이급추취소수시간상균유소제고.