电脑编程技巧与维护
電腦編程技巧與維護
전뇌편정기교여유호
COMPUTER PROGRAMMING SKILLS & MAINTENANCE
2012年
22期
74,81
,共2页
Heritrix%网络爬虫%爬虫%商品信息采集
Heritrix%網絡爬蟲%爬蟲%商品信息採集
Heritrix%망락파충%파충%상품신식채집
探讨以开源软件Heritrix体系构建的获取商品信息爬虫系统,针对Heritrix开源爬虫项目存在的问题和商品采集的特点,项目设计了定向抓取包含某一特定内容的网页的类,从而改进Heritrix,并引入ELFHash算法进行URL散列中,以提高抓取效率,为面向商品的搜索系统以及数据挖掘提供可靠的数据源.
探討以開源軟件Heritrix體繫構建的穫取商品信息爬蟲繫統,針對Heritrix開源爬蟲項目存在的問題和商品採集的特點,項目設計瞭定嚮抓取包含某一特定內容的網頁的類,從而改進Heritrix,併引入ELFHash算法進行URL散列中,以提高抓取效率,為麵嚮商品的搜索繫統以及數據挖掘提供可靠的數據源.
탐토이개원연건Heritrix체계구건적획취상품신식파충계통,침대Heritrix개원파충항목존재적문제화상품채집적특점,항목설계료정향조취포함모일특정내용적망혈적류,종이개진Heritrix,병인입ELFHash산법진행URL산렬중,이제고조취효솔,위면향상품적수색계통이급수거알굴제공가고적수거원.