计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2010年
5期
126-129
,共4页
聚焦爬虫%爬行控制器%主题相关度%数据抽取
聚焦爬蟲%爬行控製器%主題相關度%數據抽取
취초파충%파행공제기%주제상관도%수거추취
本文提出以爬行控制器和页面分析过滤器为核心的聚焦爬虫设计方法.从待检索主题出发,在以改进的遗传算法为基础并结合内容评价和链接结构搜索策略优点的爬行策略引导下,以待爬行URL作为遗传个体,基于主题词集的向量空间模型评估个体适应度,引入新的URL实现交叉、变异操作,将具有相同URL前缀的链接按小生境处理.实践证明,该爬虫具有较好的性能.
本文提齣以爬行控製器和頁麵分析過濾器為覈心的聚焦爬蟲設計方法.從待檢索主題齣髮,在以改進的遺傳算法為基礎併結閤內容評價和鏈接結構搜索策略優點的爬行策略引導下,以待爬行URL作為遺傳箇體,基于主題詞集的嚮量空間模型評估箇體適應度,引入新的URL實現交扠、變異操作,將具有相同URL前綴的鏈接按小生境處理.實踐證明,該爬蟲具有較好的性能.
본문제출이파행공제기화혈면분석과려기위핵심적취초파충설계방법.종대검색주제출발,재이개진적유전산법위기출병결합내용평개화련접결구수색책략우점적파행책략인도하,이대파행URL작위유전개체,기우주제사집적향량공간모형평고개체괄응도,인입신적URL실현교차、변이조작,장구유상동URL전철적련접안소생경처리.실천증명,해파충구유교호적성능.