中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2009年
5期
80-85
,共6页
计算机应用%中文信息处理%正文抽取%单正文体%多正文体
計算機應用%中文信息處理%正文抽取%單正文體%多正文體
계산궤응용%중문신식처리%정문추취%단정문체%다정문체
该文提出了一种基于统计与正文特征的网页正文抽取方法.该方法继承了统计方法的优点,同时利用正文特征克服了原有基于统计的方法无法抽取多正文体网页的缺陷.源于多正文体在网页的DOM树中对应着正文区域下的多棵具有相似特征的正文子树,该文首先基于统计的方法获取一条正文路径,然后学习该路径的正文特征识别正文区域和子树主干,最后根据区域及该主干具有的正文特征进而得到完整的正文.实验表明该方法抽取单正文和多正文的精确率分别为94%和91%.
該文提齣瞭一種基于統計與正文特徵的網頁正文抽取方法.該方法繼承瞭統計方法的優點,同時利用正文特徵剋服瞭原有基于統計的方法無法抽取多正文體網頁的缺陷.源于多正文體在網頁的DOM樹中對應著正文區域下的多棵具有相似特徵的正文子樹,該文首先基于統計的方法穫取一條正文路徑,然後學習該路徑的正文特徵識彆正文區域和子樹主榦,最後根據區域及該主榦具有的正文特徵進而得到完整的正文.實驗錶明該方法抽取單正文和多正文的精確率分彆為94%和91%.
해문제출료일충기우통계여정문특정적망혈정문추취방법.해방법계승료통계방법적우점,동시이용정문특정극복료원유기우통계적방법무법추취다정문체망혈적결함.원우다정문체재망혈적DOM수중대응착정문구역하적다과구유상사특정적정문자수,해문수선기우통계적방법획취일조정문로경,연후학습해로경적정문특정식별정문구역화자수주간,최후근거구역급해주간구유적정문특정진이득도완정적정문.실험표명해방법추취단정문화다정문적정학솔분별위94%화91%.