现代情报
現代情報
현대정보
Journal of Modern Information
2015年
5期
68~72
,共null页
微博 聚类 融合数据
微博 聚類 融閤數據
미박 취류 융합수거
microblog; clustering; fusion data
针对传统的微博聚类分析中,只单独针对微博阅读数、评论数等数据(下称微博结构化数据)进行分类或者单独针对由微博内容进行文本分词得到的分词数据(下称微博分词)进行分类的问题,本文采用了Kohonen聚类,研究结合微博结构化数据和微博分词的融合数据聚类的效果是否比单独对微博结构化数据或对微博分词聚类有所提高。实证数据实验结果显示,微博结构化数据单独聚类会出现一个类的标准差特别大(本文称为离群类),而对融合数据聚类,微博结构化数据则不会出现离群类;融合数据聚类结果对微博分词的影响不显著。
針對傳統的微博聚類分析中,隻單獨針對微博閱讀數、評論數等數據(下稱微博結構化數據)進行分類或者單獨針對由微博內容進行文本分詞得到的分詞數據(下稱微博分詞)進行分類的問題,本文採用瞭Kohonen聚類,研究結閤微博結構化數據和微博分詞的融閤數據聚類的效果是否比單獨對微博結構化數據或對微博分詞聚類有所提高。實證數據實驗結果顯示,微博結構化數據單獨聚類會齣現一箇類的標準差特彆大(本文稱為離群類),而對融閤數據聚類,微博結構化數據則不會齣現離群類;融閤數據聚類結果對微博分詞的影響不顯著。
침대전통적미박취류분석중,지단독침대미박열독수、평론수등수거(하칭미박결구화수거)진행분류혹자단독침대유미박내용진행문본분사득도적분사수거(하칭미박분사)진행분류적문제,본문채용료Kohonen취류,연구결합미박결구화수거화미박분사적융합수거취류적효과시부비단독대미박결구화수거혹대미박분사취류유소제고。실증수거실험결과현시,미박결구화수거단독취류회출현일개류적표준차특별대(본문칭위리군류),이대융합수거취류,미박결구화수거칙불회출현리군류;융합수거취류결과대미박분사적영향불현저。
This paper focused the problem that traditional clustering analysis have focused on only structured data such as microblog reading numbers and microblog comment numbers (rnicroblog segmentation) or only microblog text. In this paper, nil- croblog metadata are combined with microblog text to form fusion data and Kohonen Network Clustering is applied to test if fusion data clustering is better than microblog metadata clustering and than microblog text clustering. Experiments indicates that microblog metadata clustering may cause a class with large standard deviation (outlier class) and on the contrary, fusion data clustering does not. Microblog text clustering performs as well as fusion clustering.