情报杂志
情報雜誌
정보잡지
JOURNAL OF INFORMATION
2014年
6期
144-148
,共5页
新浪微博%用户关系%数据挖掘%聚类分析
新浪微博%用戶關繫%數據挖掘%聚類分析
신랑미박%용호관계%수거알굴%취류분석
Sina Weibo%user relationship%data mining%clustering analysis
以新浪微博平台为研究对象,利用Python语言和Web自动化工具通过平台提供的应用接口实现自动认证和微博数据的自动抓取,将其转换成需要的数据格式之后,运用深度优先搜索算法进行分析,获得用户的关系并可视化。此外,采用改进的K-means算法进行主题聚类,实验结果表明,改进后的算法更加准确有效。最后,根据用户信息生成兴趣相关性矩阵,采用改进后的K-means算法分析微博用户关注兴趣的相似性。
以新浪微博平檯為研究對象,利用Python語言和Web自動化工具通過平檯提供的應用接口實現自動認證和微博數據的自動抓取,將其轉換成需要的數據格式之後,運用深度優先搜索算法進行分析,穫得用戶的關繫併可視化。此外,採用改進的K-means算法進行主題聚類,實驗結果錶明,改進後的算法更加準確有效。最後,根據用戶信息生成興趣相關性矩陣,採用改進後的K-means算法分析微博用戶關註興趣的相似性。
이신랑미박평태위연구대상,이용Python어언화Web자동화공구통과평태제공적응용접구실현자동인증화미박수거적자동조취,장기전환성수요적수거격식지후,운용심도우선수색산법진행분석,획득용호적관계병가시화。차외,채용개진적K-means산법진행주제취류,실험결과표명,개진후적산법경가준학유효。최후,근거용호신식생성흥취상관성구진,채용개진후적K-means산법분석미박용호관주흥취적상사성。
Taking Sina Weibo platform as the research object, we can automatically obtain the authorization and grab the microblog data from the application interface by using Python language and Web automation tools. Then, the data are converted into the required format. The depth first search algorithm is used to analyze the user relationship, and the relationship is visualized. In addition, the improved K-means algorithm is proposed for topic clustering analysis. Experimental results demonstrate that the proposed method is more accurate and effective. Finally, an interest correlation matrix is generated based on the user information;the improved K-means algorithm is used to an-alyze the similarity of attention behavior between Microblog users.