计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2006年
10期
74-76
,共3页
信息抽取%包装器%DOM%抽取规则
信息抽取%包裝器%DOM%抽取規則
신식추취%포장기%DOM%추취규칙
随着互联网的普及,信息技术的发展,形成了大量的新闻信息资源.从海量的新闻信息中抽取出有用的资源,是当前迫切需要解决的问题.该文在分析新闻网页结构的基础上,结合了基于DOM的结构抽取和基于文本特征模式抽取两种处理技术的优点,提出了基于Web新闻网页的半自动化抽取技术,自动下载了有用的Web页面,抽取了所需的新闻信息.最后,该文描述了一个面向奥运新闻的信息抽取系统,并给出了该系统的实验结果.
隨著互聯網的普及,信息技術的髮展,形成瞭大量的新聞信息資源.從海量的新聞信息中抽取齣有用的資源,是噹前迫切需要解決的問題.該文在分析新聞網頁結構的基礎上,結閤瞭基于DOM的結構抽取和基于文本特徵模式抽取兩種處理技術的優點,提齣瞭基于Web新聞網頁的半自動化抽取技術,自動下載瞭有用的Web頁麵,抽取瞭所需的新聞信息.最後,該文描述瞭一箇麵嚮奧運新聞的信息抽取繫統,併給齣瞭該繫統的實驗結果.
수착호련망적보급,신식기술적발전,형성료대량적신문신식자원.종해량적신문신식중추취출유용적자원,시당전박절수요해결적문제.해문재분석신문망혈결구적기출상,결합료기우DOM적결구추취화기우문본특정모식추취량충처리기술적우점,제출료기우Web신문망혈적반자동화추취기술,자동하재료유용적Web혈면,추취료소수적신문신식.최후,해문묘술료일개면향오운신문적신식추취계통,병급출료해계통적실험결과.