计算机系统应用
計算機繫統應用
계산궤계통응용
APPLICATIONS OF THE COMPUTER SYSTEMS
2013年
7期
36-39,52
,共5页
徐明子%吕立%李喜旺
徐明子%呂立%李喜旺
서명자%려립%리희왕
主题爬虫%相关度计算%搜索策略%遗传因子
主題爬蟲%相關度計算%搜索策略%遺傳因子
주제파충%상관도계산%수색책략%유전인자
topic-focused web crawler%relevance calculation%search strategy%gene factor
详细阐述了主题网络爬虫实现的关键技术,将传统的空间向量模型进行改进形成自适应的空间向量模型,结合网页内容和链接两个方面进行网页相关度计算,设计并实现了一个面向主题的网络爬虫系统。针对主题网络爬虫爬行中出现的页面捕捉不全问题还提出了一种改进的手动与遗传因子相结合的网页搜索策略。最后给出实验结果,证明该系统的可行性及优越性。
詳細闡述瞭主題網絡爬蟲實現的關鍵技術,將傳統的空間嚮量模型進行改進形成自適應的空間嚮量模型,結閤網頁內容和鏈接兩箇方麵進行網頁相關度計算,設計併實現瞭一箇麵嚮主題的網絡爬蟲繫統。針對主題網絡爬蟲爬行中齣現的頁麵捕捉不全問題還提齣瞭一種改進的手動與遺傳因子相結閤的網頁搜索策略。最後給齣實驗結果,證明該繫統的可行性及優越性。
상세천술료주제망락파충실현적관건기술,장전통적공간향량모형진행개진형성자괄응적공간향량모형,결합망혈내용화련접량개방면진행망혈상관도계산,설계병실현료일개면향주제적망락파충계통。침대주제망락파충파행중출현적혈면포착불전문제환제출료일충개진적수동여유전인자상결합적망혈수색책략。최후급출실험결과,증명해계통적가행성급우월성。
This paper researched key techniques of topic-focused web crawler at first, then designed and implemented a crawler system by using improved slef-adapted vector space model. It analysised documents both in text and links. As the same time, this paper also comed up with a web search stategy based on gene factor combined with manully control. This strategy can solve the problem of searching path blocked. In the end, we provide some experiment results to prove the feasibility and advantages of our system from recall ratio and precision ratio.