计算机系统应用
計算機繫統應用
계산궤계통응용
APPLICATIONS OF THE COMPUTER SYSTEMS
2010年
7期
193-196,139
,共5页
主题信息抽取%DIV标签树%STU-DIV模型树%主题相关度%剪枝算法
主題信息抽取%DIV標籤樹%STU-DIV模型樹%主題相關度%剪枝算法
주제신식추취%DIV표첨수%STU-DIV모형수%주제상관도%전지산법
随着CSS+DIV局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为专业搜索引擎的迫切任务之一.提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV标签把HTML文档解析成DIV森林,然后过滤掉DIV标签树中的噪声结点并且建立STU-DIV模型树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树.通过对多个新闻网站的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息.
隨著CSS+DIV跼方式逐漸成為網頁結構佈跼的主流,對此類網頁進行高效的主題信息抽取已成為專業搜索引擎的迫切任務之一.提齣一種基于DIV標籤樹的網頁主題信息抽取方法,首先根據DIV標籤把HTML文檔解析成DIV森林,然後過濾掉DIV標籤樹中的譟聲結點併且建立STU-DIV模型樹,最後通過主題相關度分析和剪枝算法,剪掉與主題信息無關的DIV標籤樹.通過對多箇新聞網站的網頁進行分析處理,實驗證明此方法能夠有效地抽取新聞網頁的主題信息.
수착CSS+DIV국방식축점성위망혈결구포국적주류,대차류망혈진행고효적주제신식추취이성위전업수색인경적박절임무지일.제출일충기우DIV표첨수적망혈주제신식추취방법,수선근거DIV표첨파HTML문당해석성DIV삼림,연후과려도DIV표첨수중적조성결점병차건립STU-DIV모형수,최후통과주제상관도분석화전지산법,전도여주제신식무관적DIV표첨수.통과대다개신문망참적망혈진행분석처리,실험증명차방법능구유효지추취신문망혈적주제신식.