计算机仿真
計算機倣真
계산궤방진
COMPUTER SIMULATION
2010年
10期
87-90,123
,共5页
陈一峰%赵恒凯%余小清%万旺根
陳一峰%趙恆凱%餘小清%萬旺根
진일봉%조항개%여소청%만왕근
主题爬虫%排序算法%遗传算法%网页信息
主題爬蟲%排序算法%遺傳算法%網頁信息
주제파충%배서산법%유전산법%망혈신식
针对主题爬虫存在"主题漂移"的问题,为了快速抓取网页,提出了一种基于遗传算法的主题爬行改进策略.在现有遗传算法爬行策略的基础上新引入了PageRank算法,调整了以往网页主题相关度计算方式,以计算得到的网页PageRank和相关度值为依据来选择爬行中的遗传因子,并重新设置了适应度函数,在保证优越遗传因子(与主题相关且重要网页)被优先遗传的同时,减少了遗传因子在传递过程中的"主题漂移",从而使爬行到网页的重要性和主题相关性均有所提高.与以往基于遗传算法的策略相比较,在不影响查全率的情况下,与主题相关且重要的网页数可提升5%以上.
針對主題爬蟲存在"主題漂移"的問題,為瞭快速抓取網頁,提齣瞭一種基于遺傳算法的主題爬行改進策略.在現有遺傳算法爬行策略的基礎上新引入瞭PageRank算法,調整瞭以往網頁主題相關度計算方式,以計算得到的網頁PageRank和相關度值為依據來選擇爬行中的遺傳因子,併重新設置瞭適應度函數,在保證優越遺傳因子(與主題相關且重要網頁)被優先遺傳的同時,減少瞭遺傳因子在傳遞過程中的"主題漂移",從而使爬行到網頁的重要性和主題相關性均有所提高.與以往基于遺傳算法的策略相比較,在不影響查全率的情況下,與主題相關且重要的網頁數可提升5%以上.
침대주제파충존재"주제표이"적문제,위료쾌속조취망혈,제출료일충기우유전산법적주제파행개진책략.재현유유전산법파행책략적기출상신인입료PageRank산법,조정료이왕망혈주제상관도계산방식,이계산득도적망혈PageRank화상관도치위의거래선택파행중적유전인자,병중신설치료괄응도함수,재보증우월유전인자(여주제상관차중요망혈)피우선유전적동시,감소료유전인자재전체과정중적"주제표이",종이사파행도망혈적중요성화주제상관성균유소제고.여이왕기우유전산법적책략상비교,재불영향사전솔적정황하,여주제상관차중요적망혈수가제승5%이상.