计算机应用与软件
計算機應用與軟件
계산궤응용여연건
COMPUTER APPLICATIONS AND SOFTWARE
2015年
4期
317-322
,共6页
网页信息抽取%模板页%分块%相同噪音块%同类噪音块%特殊噪音块
網頁信息抽取%模闆頁%分塊%相同譟音塊%同類譟音塊%特殊譟音塊
망혈신식추취%모판혈%분괴%상동조음괴%동류조음괴%특수조음괴
Webpage information extraction%Template page%Blocking%Same noise block%Similar noise blocks%Special noise block
为了更彻底地清洗网页噪音,减少网页噪音对新闻内容抽取准确率的影响,提出基于模板页的相同噪音块清洗方法和基于class属性的同类噪音块和特殊噪音块清洗方法;在此基础上,利用新闻网页在内容布局结构上的特征,提出基于起始块和终止块的新闻内容抽取方法。实验结果表明,与已有的算法相比,提出的方法抽取准确率更高,能够同时适应正文内容存放在单块和多块的情形,并且有效地解决了正文内容较短时的抽取问题。
為瞭更徹底地清洗網頁譟音,減少網頁譟音對新聞內容抽取準確率的影響,提齣基于模闆頁的相同譟音塊清洗方法和基于class屬性的同類譟音塊和特殊譟音塊清洗方法;在此基礎上,利用新聞網頁在內容佈跼結構上的特徵,提齣基于起始塊和終止塊的新聞內容抽取方法。實驗結果錶明,與已有的算法相比,提齣的方法抽取準確率更高,能夠同時適應正文內容存放在單塊和多塊的情形,併且有效地解決瞭正文內容較短時的抽取問題。
위료경철저지청세망혈조음,감소망혈조음대신문내용추취준학솔적영향,제출기우모판혈적상동조음괴청세방법화기우class속성적동류조음괴화특수조음괴청세방법;재차기출상,이용신문망혈재내용포국결구상적특정,제출기우기시괴화종지괴적신문내용추취방법。실험결과표명,여이유적산법상비,제출적방법추취준학솔경고,능구동시괄응정문내용존방재단괴화다괴적정형,병차유효지해결료정문내용교단시적추취문제。
To more thoroughly purge the noises in webpage and reduce the effect of webpage noises on accuracy of news content extraction, we propose two cleaning methods,the template page-based cleaning method for same noise blocks and the class attribute-based cleaning methodfor similar noise blocks and special noise blocks;based on that,by using the characteristic of webpage of news in contents layout structure,we present the beginning block and end block-based news content extraction algorithm.Experimental results show that compared with existing algorithm,the proposed algorithm has higher extraction accuracy rate and can adapt to the situation that the text content is stored in either single block or multiple blocks,and it effectively solves the extraction problem of shorter text content.