控制工程
控製工程
공제공정
CONTROL ENGINEERING OF CHINA
2013年
4期
707-710
,共4页
主题提取%网络爬虫%页面相关度
主題提取%網絡爬蟲%頁麵相關度
주제제취%망락파충%혈면상관도
topic distillation%web crawler%page relevance
随着新闻网信息的急剧增加,研究面向新闻网的智能抓取技术变得十分必要.在基于主题网络爬虫的基础上,改进了网页与主题的相关度算法,设计出面向新闻网的智能抓取技术.按照预先确定的主题,分析超链接和刚刚抓取的网页内容,获取下一个要爬行的URL.有选择的访问新闻网上的网页和相关的链接,尽可能保证多爬行与主题相关的网页.实验结果表明,改进后的抓取技术比以往的新闻网抓取技术在性能上有较大提升,抓取准确率显著提高.
隨著新聞網信息的急劇增加,研究麵嚮新聞網的智能抓取技術變得十分必要.在基于主題網絡爬蟲的基礎上,改進瞭網頁與主題的相關度算法,設計齣麵嚮新聞網的智能抓取技術.按照預先確定的主題,分析超鏈接和剛剛抓取的網頁內容,穫取下一箇要爬行的URL.有選擇的訪問新聞網上的網頁和相關的鏈接,儘可能保證多爬行與主題相關的網頁.實驗結果錶明,改進後的抓取技術比以往的新聞網抓取技術在性能上有較大提升,抓取準確率顯著提高.
수착신문망신식적급극증가,연구면향신문망적지능조취기술변득십분필요.재기우주제망락파충적기출상,개진료망혈여주제적상관도산법,설계출면향신문망적지능조취기술.안조예선학정적주제,분석초련접화강강조취적망혈내용,획취하일개요파행적URL.유선택적방문신문망상적망혈화상관적련접,진가능보증다파행여주제상관적망혈.실험결과표명,개진후적조취기술비이왕적신문망조취기술재성능상유교대제승,조취준학솔현저제고.