计算机与数字工程
計算機與數字工程
계산궤여수자공정
COMPUTER & DIGITAL ENGINEERING
2015年
5期
861-863,876
,共4页
微博网页%网络爬虫%模拟登录
微博網頁%網絡爬蟲%模擬登錄
미박망혈%망락파충%모의등록
microblog page%web crawler%simulating login
微博作为国内最受欢迎的社交平台,海量的微博数据必然包含丰富的知识资源.如何获取这些非结构化的数据,是进行微博数据挖掘的基础.根据微博网页的特点,提出了一种基于Linux的python多线程爬虫程序设计方法,通过模拟登录新浪微博,自动获取网页内容,再从网页内容中抽取微博和用户数据,以结构化的CSV数据格式存储或存入MySQL数据库,从而获取微博海量数据和用户信息.通过和基于开放API的爬虫程序进行比较,结果表明,从较长时间考虑,基于Linux的python多线程爬虫程序拥有更加优异的性能.
微博作為國內最受歡迎的社交平檯,海量的微博數據必然包含豐富的知識資源.如何穫取這些非結構化的數據,是進行微博數據挖掘的基礎.根據微博網頁的特點,提齣瞭一種基于Linux的python多線程爬蟲程序設計方法,通過模擬登錄新浪微博,自動穫取網頁內容,再從網頁內容中抽取微博和用戶數據,以結構化的CSV數據格式存儲或存入MySQL數據庫,從而穫取微博海量數據和用戶信息.通過和基于開放API的爬蟲程序進行比較,結果錶明,從較長時間攷慮,基于Linux的python多線程爬蟲程序擁有更加優異的性能.
미박작위국내최수환영적사교평태,해량적미박수거필연포함봉부적지식자원.여하획취저사비결구화적수거,시진행미박수거알굴적기출.근거미박망혈적특점,제출료일충기우Linux적python다선정파충정서설계방법,통과모의등록신랑미박,자동획취망혈내용,재종망혈내용중추취미박화용호수거,이결구화적CSV수거격식존저혹존입MySQL수거고,종이획취미박해량수거화용호신식.통과화기우개방API적파충정서진행비교,결과표명,종교장시간고필,기우Linux적python다선정파충정서옹유경가우이적성능.