广西师范大学学报(自然科学版)
廣西師範大學學報(自然科學版)
엄서사범대학학보(자연과학판)
JOURNAL OF GUANGXI NORMAL UNIVERSITY(NATURAL SCIENCE EDITION)
2009年
1期
141-144
,共4页
HTML,标签%网页分块%内容特征%信息抽取
HTML,標籤%網頁分塊%內容特徵%信息抽取
HTML,표첨%망혈분괴%내용특정%신식추취
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块.实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法.
根據網頁文本信息的結構和內容特徵,提齣一種網頁主題文本信息的抽取策略,將網頁文檔錶示為DOM標籤樹的形式,然後根據Web頁麵的結構特徵進行內容塊的分割,以網頁的文本內容特徵為依據識彆鏈接型和主題型內容塊,併提取主題型網頁的文本信息塊.實驗結果錶明:基于分塊的方法有效地實現瞭鏈接型和主題型網頁的分類,併準確地完成主題型網頁的文本信息塊的抽取任務,是一種簡單、準確的網頁信息抽取方法.
근거망혈문본신식적결구화내용특정,제출일충망혈주제문본신식적추취책략,장망혈문당표시위DOM표첨수적형식,연후근거Web혈면적결구특정진행내용괴적분할,이망혈적문본내용특정위의거식별련접형화주제형내용괴,병제취주제형망혈적문본신식괴.실험결과표명:기우분괴적방법유효지실현료련접형화주제형망혈적분류,병준학지완성주제형망혈적문본신식괴적추취임무,시일충간단、준학적망혈신식추취방법.