计算机与现代化
計算機與現代化
계산궤여현대화
COMPUTER AND MODERNIZATION
2014年
4期
77-80
,共4页
主题爬虫%主题相关度%主题网页
主題爬蟲%主題相關度%主題網頁
주제파충%주제상관도%주제망혈
topical crawler%topical correlation%topical webpage
现存主题爬虫算法在抓取主题网页方面,其准确性不是很高.本文提出一种基于文本内容评价与网页链接评价的主题网页抓取方法.首先计算当前网页与主题的相关度,然后将相关度值与给定阈值进行比较决定当前网页是丢弃还是存储,同时相关度值的大小也决定了待爬链接队列中URL的优先权,此模型考虑了主题网页的准确率与覆盖率之间的平衡.新设计的主题爬虫算法在抓取主题网页方面,其准确性有一定程度的提高.
現存主題爬蟲算法在抓取主題網頁方麵,其準確性不是很高.本文提齣一種基于文本內容評價與網頁鏈接評價的主題網頁抓取方法.首先計算噹前網頁與主題的相關度,然後將相關度值與給定閾值進行比較決定噹前網頁是丟棄還是存儲,同時相關度值的大小也決定瞭待爬鏈接隊列中URL的優先權,此模型攷慮瞭主題網頁的準確率與覆蓋率之間的平衡.新設計的主題爬蟲算法在抓取主題網頁方麵,其準確性有一定程度的提高.
현존주제파충산법재조취주제망혈방면,기준학성불시흔고.본문제출일충기우문본내용평개여망혈련접평개적주제망혈조취방법.수선계산당전망혈여주제적상관도,연후장상관도치여급정역치진행비교결정당전망혈시주기환시존저,동시상관도치적대소야결정료대파련접대렬중URL적우선권,차모형고필료주제망혈적준학솔여복개솔지간적평형.신설계적주제파충산법재조취주제망혈방면,기준학성유일정정도적제고.