微型机与应用
微型機與應用
미형궤여응용
MICROCOMPUTER & ITS APPLICATIONS
2011年
16期
64-67,71
,共5页
统计规律%网页噪声过滤%正文提取
統計規律%網頁譟聲過濾%正文提取
통계규률%망혈조성과려%정문제취
statistical regularity%reduce noise in webpage%main text extraction
网页噪声过滤是网页预处理中关键的一步,其处理结果对后续处理的效率和准确性都有很大的影响。本文基于文本块字符数的统计规律,在总结了新闻网页特点的基础上设计了一种高效的新闻网页噪声过滤算法。该算法不仅完成了新闻正文的提取,也实现了新闻标题和报道时间的提取。试验证明,该算法有很高的处理速度,同时其提取的准确率也有了进一步的提高。
網頁譟聲過濾是網頁預處理中關鍵的一步,其處理結果對後續處理的效率和準確性都有很大的影響。本文基于文本塊字符數的統計規律,在總結瞭新聞網頁特點的基礎上設計瞭一種高效的新聞網頁譟聲過濾算法。該算法不僅完成瞭新聞正文的提取,也實現瞭新聞標題和報道時間的提取。試驗證明,該算法有很高的處理速度,同時其提取的準確率也有瞭進一步的提高。
망혈조성과려시망혈예처리중관건적일보,기처리결과대후속처리적효솔화준학성도유흔대적영향。본문기우문본괴자부수적통계규률,재총결료신문망혈특점적기출상설계료일충고효적신문망혈조성과려산법。해산법불부완성료신문정문적제취,야실현료신문표제화보도시간적제취。시험증명,해산법유흔고적처리속도,동시기제취적준학솔야유료진일보적제고。
Noise reduction is an essential part of webpage pretreatment. It's processing result has a great effect on efficiency and accuracy of the later process.Depending on the news webpage features and the statistical regularity of the text blocks, an efficient approach to reduce noise in news was designed. This approach can not only extract the main text ,but also the news title and the report time. The experimental results show that this approach obtains very high processing speed .And at the same time the accuracy is improved.