计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2012年
30期
151-156
,共6页
段晓丽%王宇%谷静%刘玮楠
段曉麗%王宇%穀靜%劉瑋楠
단효려%왕우%곡정%류위남
正文特征%标签信息%正文抽取
正文特徵%標籤信息%正文抽取
정문특정%표첨신식%정문추취
Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础.在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法.在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息.实验证明,这种方法具有很好的准确率及召回率.
Web正文信息抽取是信息檢索、文本挖掘等Web信息處理工作的基礎.在統計分析瞭主題網頁的正文特徵及結構特徵的基礎上,提齣瞭一種結閤網頁正文信息特徵及HTML標籤特點的主題網頁正文信息抽取方法.在將Web頁麵解析成DOM樹的基礎上,根據頁麵DOM樹結構穫取正文信息塊,分析正文信息塊塊內譟音信息的特點,去除塊內譟音信息.實驗證明,這種方法具有很好的準確率及召迴率.
Web정문신식추취시신식검색、문본알굴등Web신식처리공작적기출.재통계분석료주제망혈적정문특정급결구특정적기출상,제출료일충결합망혈정문신식특정급HTML표첨특점적주제망혈정문신식추취방법.재장Web혈면해석성DOM수적기출상,근거혈면DOM수결구획취정문신식괴,분석정문신식괴괴내조음신식적특점,거제괴내조음신식.실험증명,저충방법구유흔호적준학솔급소회솔.