现代计算机:下半月版
現代計算機:下半月版
현대계산궤:하반월판
Modem Computer
2012年
14期
18-22
,共5页
垂直搜索引擎%网络爬虫%Heritrix%内容过滤
垂直搜索引擎%網絡爬蟲%Heritrix%內容過濾
수직수색인경%망락파충%Heritrix%내용과려
Vertical Search Engine%Web-Crawlers%Heritrix%Content Filtering
在深入研究开源网页爬虫——Heritrix系统框架和源代码的基础上.对其搜索内容和范围增加过滤处理功能。这些功能扩展的实现是通过面向对象分析与设计技术.定义类对Hefitfix中相关的类进行继承。在校园网范围内运行Hefimx进行网页收集实验。实验结果表明,新增的过滤功能运行有效。
在深入研究開源網頁爬蟲——Heritrix繫統框架和源代碼的基礎上.對其搜索內容和範圍增加過濾處理功能。這些功能擴展的實現是通過麵嚮對象分析與設計技術.定義類對Hefitfix中相關的類進行繼承。在校園網範圍內運行Hefimx進行網頁收集實驗。實驗結果錶明,新增的過濾功能運行有效。
재심입연구개원망혈파충——Heritrix계통광가화원대마적기출상.대기수색내용화범위증가과려처리공능。저사공능확전적실현시통과면향대상분석여설계기술.정의류대Hefitfix중상관적류진행계승。재교완망범위내운행Hefimx진행망혈수집실험。실험결과표명,신증적과려공능운행유효。
On the basis of in-depth study of the system framework of Web-Crawler, Heritrix and its source code, adds the filtering functions on its target contents as well as the search scope. Realizes the function expansion through object-oriented analysis and design techniques, and constructs some classes that inherit the related classes in Heritrix. Makes Website collection experiment by runnning Hertrix in the campus network, and the result shows that the newly additional functions run well.