中国煤炭
中國煤炭
중국매탄
CHINA COAL
2014年
10期
84-88
,共5页
煤矿安全事件%Web%信息抽取%页面清洗%抽取规则
煤礦安全事件%Web%信息抽取%頁麵清洗%抽取規則
매광안전사건%Web%신식추취%혈면청세%추취규칙
coal mining safety issues%web information retrieval%webpage cleaning%extracG tion rule
针对煤矿安全事件信息的特点,提出了基于煤矿安全事件的 Web 信息抽取方法,主要包括页面清洗、抽取规则生成、Web信息抽取。页面清洗作为预处理阶段,用于删除Web页面中的 HTML标识、脚本、css段等无用信息;抽取规则生成是根据信息特征,定位信息在页面的位置;通过实验验证基于煤矿安全事件的 Web信息抽取方法的可行性,结果表明本文提出的信息抽取方法针对中小型规模的信息抽取具有很高的准确性和有效性。
針對煤礦安全事件信息的特點,提齣瞭基于煤礦安全事件的 Web 信息抽取方法,主要包括頁麵清洗、抽取規則生成、Web信息抽取。頁麵清洗作為預處理階段,用于刪除Web頁麵中的 HTML標識、腳本、css段等無用信息;抽取規則生成是根據信息特徵,定位信息在頁麵的位置;通過實驗驗證基于煤礦安全事件的 Web信息抽取方法的可行性,結果錶明本文提齣的信息抽取方法針對中小型規模的信息抽取具有很高的準確性和有效性。
침대매광안전사건신식적특점,제출료기우매광안전사건적 Web 신식추취방법,주요포괄혈면청세、추취규칙생성、Web신식추취。혈면청세작위예처리계단,용우산제Web혈면중적 HTML표식、각본、css단등무용신식;추취규칙생성시근거신식특정,정위신식재혈면적위치;통과실험험증기우매광안전사건적 Web신식추취방법적가행성,결과표명본문제출적신식추취방법침대중소형규모적신식추취구유흔고적준학성화유효성。
In this paper,by taking into account characteristics of safety issue information in coal mining,we propose a Web information retrieval strategy based on coal mining safety issues?Our method includes cleaning webpage,generating extraction rule,and retrieving Web informaG tion? Webpage cleaning,as a pretreatment,is used for useless information such as HTML laG bels,scripts,and css parts in webpages?Extraction rule generation is used for finding the exact positions of the information in the webpage,which is based on the characteristics of the informaG tion?Moreover,experimental results in this paper demonstrate the possibility of Web informaG tion retrieval based on coal mining safety issues,and the experimental results further show the accuracy and efficiency of our proposed information retrieval method,in particular for small and middle scale information retrieval tasks.