计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2013年
12期
200-203,210
,共5页
熊忠阳%蔺显强%张玉芳%牙漫
熊忠暘%藺顯彊%張玉芳%牙漫
웅충양%린현강%장옥방%아만
正文提取%网页去噪%网页分块%主题爬行%信息检索%Web挖掘
正文提取%網頁去譟%網頁分塊%主題爬行%信息檢索%Web挖掘
정문제취%망혈거조%망혈분괴%주제파행%신식검색%Web알굴
content extraction%Web page denoising%Web page segmentation%subject crawling%information retrieve%Web mining
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。
網頁中存在正文信息以及與正文無關的信息,無關信息的存在對Web頁麵的分類、存儲及檢索等帶來負麵的影響。為降低無關信息的影響,從網頁的結構特徵和文本特徵齣髮,提齣一種結閤網頁結構特徵與文本特徵的正文提取方法。通過正則錶達式去除網頁中的無關元素,完成對網頁的初次過濾。根據網頁的結構特徵對網頁進行線性分塊,依據各箇塊的文本特徵將其區分為鏈接塊與文本塊,併利用譟音塊連續齣現的結果完成對正文部分的定位,得到網頁正文信息。實驗結果錶明,該方法能夠快速準確地提取網頁的正文內容。
망혈중존재정문신식이급여정문무관적신식,무관신식적존재대Web혈면적분류、존저급검색등대래부면적영향。위강저무관신식적영향,종망혈적결구특정화문본특정출발,제출일충결합망혈결구특정여문본특정적정문제취방법。통과정칙표체식거제망혈중적무관원소,완성대망혈적초차과려。근거망혈적결구특정대망혈진행선성분괴,의거각개괴적문본특정장기구분위련접괴여문본괴,병이용조음괴련속출현적결과완성대정문부분적정위,득도망혈정문신식。실험결과표명,해방법능구쾌속준학지제취망혈적정문내용。
There are both relevant information and irrelevant information in a Web page, the irrelevant information brings some negative influence to their classification, storage and retrieve. In order to reduce the influence, aiming at theme-related Web pages, this paper proposes a new method to extract the content of Web pages based on their text and structural features. It removes those unrelated tags in the Web page by regular expressions, and segments the Web into blocks according to Web pages structure and the text information. By analyzing the text blocks and link blocks of the Web, it only retains the main content of the page;those noisy parts are deleted from the page. Experimental result shows that the method is feasible and of high accuracy in page cleaning and content extraction.