周口师范学院学报
週口師範學院學報
주구사범학원학보
Journal of Zhoukou Normal University
2014年
2期
129~131
,共null页
网络爬虫 优惠商品 搜索平台
網絡爬蟲 優惠商品 搜索平檯
망락파충 우혜상품 수색평태
web crawler; discount merchandise; search platform
针对主流电子商务网站上的商品数据进行查询,在基于C++搜索引擎Xapian技术上设计出针对商品信息查询的网络爬虫架构,并通过改进的SLASA算法和DNSCache技术抓取下载主流电商网页中商品数据,将荻取到的数据通过baidu,google等搜索引擎及pageRank算法进行二次过滤后存储到数据库中,再通过判权算法筛选用户所需数据,将筛选出的商品信息回馈给用户,达到方便用户选取到价格低廉商品的目的.
針對主流電子商務網站上的商品數據進行查詢,在基于C++搜索引擎Xapian技術上設計齣針對商品信息查詢的網絡爬蟲架構,併通過改進的SLASA算法和DNSCache技術抓取下載主流電商網頁中商品數據,將荻取到的數據通過baidu,google等搜索引擎及pageRank算法進行二次過濾後存儲到數據庫中,再通過判權算法篩選用戶所需數據,將篩選齣的商品信息迴饋給用戶,達到方便用戶選取到價格低廉商品的目的.
침대주류전자상무망참상적상품수거진행사순,재기우C++수색인경Xapian기술상설계출침대상품신식사순적망락파충가구,병통과개진적SLASA산법화DNSCache기술조취하재주류전상망혈중상품수거,장적취도적수거통과baidu,google등수색인경급pageRank산법진행이차과려후존저도수거고중,재통과판권산법사선용호소수수거,장사선출적상품신식회궤급용호,체도방편용호선취도개격저렴상품적목적.
This paper goods data for mainstream e- commerce web site inquiries, in C+ + search engine Xapian technolo- gy designed for web crawler architecture commodity information based on the query, and download the mainstream commodi- ty business webpage data by the improved SLASA algorithm and DNS Cache technology grasping, will get data through the baidu, google and other search engines and the pageRank algorithm for the two time after filtering is stored in the database, and then the data required by user by judging whether the right algorithm screening, screening out of the commodity will feedback information to the user, to facilitate the user to select the inexpensive goods.