计算机应用研究
計算機應用研究
계산궤응용연구
APPLICATION RESEARCH OF COMPUTERS
2013年
8期
2381-2385
,共5页
胡廉民%张泽斌%徐威迪%黄翰%李英
鬍廉民%張澤斌%徐威迪%黃翰%李英
호렴민%장택빈%서위적%황한%리영
网络爬虫%URL过滤器%层次结构保存%频率模型
網絡爬蟲%URL過濾器%層次結構保存%頻率模型
망락파충%URL과려기%층차결구보존%빈솔모형
Web crawler%URL filter%hierarchical structure preservation%frequent mode
为了提高目前爬虫算法抓取结果的有效性,提出了一种旨在获取有效信息的改进网络爬虫算法,主要设计了信息的分层结构保留策略和URL过滤模式.在改进算法中,网络资源定位符被分层存储,在保留信息全部拓扑关系的基础上,将交错复杂的URL网络系统从一个图结构变为一个层次分明的树结构.在执行结构模式下,实现了增量爬虫算法.仿真实验以实际网站的BBS为测试数据,结果表明,改进算法比现有网络爬虫算法在爬行速度、下载效率与信息有效性等方面有较大的优势.因此,分层结构策略与URL过滤模式可以在增加少量计算时间的前提下极大提高爬虫抓取页面的有效性.
為瞭提高目前爬蟲算法抓取結果的有效性,提齣瞭一種旨在穫取有效信息的改進網絡爬蟲算法,主要設計瞭信息的分層結構保留策略和URL過濾模式.在改進算法中,網絡資源定位符被分層存儲,在保留信息全部拓撲關繫的基礎上,將交錯複雜的URL網絡繫統從一箇圖結構變為一箇層次分明的樹結構.在執行結構模式下,實現瞭增量爬蟲算法.倣真實驗以實際網站的BBS為測試數據,結果錶明,改進算法比現有網絡爬蟲算法在爬行速度、下載效率與信息有效性等方麵有較大的優勢.因此,分層結構策略與URL過濾模式可以在增加少量計算時間的前提下極大提高爬蟲抓取頁麵的有效性.
위료제고목전파충산법조취결과적유효성,제출료일충지재획취유효신식적개진망락파충산법,주요설계료신식적분층결구보류책략화URL과려모식.재개진산법중,망락자원정위부피분층존저,재보류신식전부탁복관계적기출상,장교착복잡적URL망락계통종일개도결구변위일개층차분명적수결구.재집행결구모식하,실현료증량파충산법.방진실험이실제망참적BBS위측시수거,결과표명,개진산법비현유망락파충산법재파행속도、하재효솔여신식유효성등방면유교대적우세.인차,분층결구책략여URL과려모식가이재증가소량계산시간적전제하겁대제고파충조취혈면적유효성.