合肥工业大学学报(自然科学版)
閤肥工業大學學報(自然科學版)
합비공업대학학보(자연과학판)
JOURNAL OF HEFEI UNIVERSITY OF TECHNOLOGY(NATURAL SCIENCE)
2014年
10期
1210-1215
,共6页
孙晓%叶嘉麒%唐陈意%任福继
孫曉%葉嘉麒%唐陳意%任福繼
손효%협가기%당진의%임복계
新浪微博A PI%大数据%数据挖掘%网络爬虫%多策略
新浪微博A PI%大數據%數據挖掘%網絡爬蟲%多策略
신랑미박A PI%대수거%수거알굴%망락파충%다책략
Sina microblogging API%big data%data mining%Web crawler%multi-strategy
微博数据处理属于大数据范畴,其前提是获取大量的微博数据,而由于商业利益以及安全方面的考虑,获取微博数据的途径越来越少。同时随着新浪官方A PI的逐步更新,数据获取的限制也日益增加。文章尝试利用现有资源,基于多策略获取机制,设计出可稳定获得新浪微博数据的挖掘方案,并给出情感分析应用实例。实验表明,所设计的挖掘方案可以根据需要获取微博上的数据,并可以应用于微博情感分析中。
微博數據處理屬于大數據範疇,其前提是穫取大量的微博數據,而由于商業利益以及安全方麵的攷慮,穫取微博數據的途徑越來越少。同時隨著新浪官方A PI的逐步更新,數據穫取的限製也日益增加。文章嘗試利用現有資源,基于多策略穫取機製,設計齣可穩定穫得新浪微博數據的挖掘方案,併給齣情感分析應用實例。實驗錶明,所設計的挖掘方案可以根據需要穫取微博上的數據,併可以應用于微博情感分析中。
미박수거처리속우대수거범주,기전제시획취대량적미박수거,이유우상업이익이급안전방면적고필,획취미박수거적도경월래월소。동시수착신랑관방A PI적축보경신,수거획취적한제야일익증가。문장상시이용현유자원,기우다책략획취궤제,설계출가은정획득신랑미박수거적알굴방안,병급출정감분석응용실례。실험표명,소설계적알굴방안가이근거수요획취미박상적수거,병가이응용우미박정감분석중。
Dealing with microblogging data belongs to big data areas ,and the premise is to obtain a large a-mount of microblogging data .For the commercial interests as well as security considerations ,the access to the microblogging data is more and more difficult and the Sina official open API does not support large data plug-in .In this paper ,a mining scheme ,w hich is mainly based on the access mechanism of multi-strategy and ex-isting resources ,is designed to catch data stably from Sina microblog .And an example of its application in sentiment analysis is given .The test results show that the proposed mining scheme can catch microblogging data as needed and it is suitable for the sentiment analysis of microblog .