计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2011年
10期
1795-1802
,共8页
微博%主题挖掘%LDA%概率生成模型%社交网络
微博%主題挖掘%LDA%概率生成模型%社交網絡
미박%주제알굴%LDA%개솔생성모형%사교망락
随着微博的日趋流行,Twitter等微博网站已成为海量信息的发布体,对微博的研究也需要从单一的用户关系分析向微博本身内容的挖掘进行转变.在数据挖掘领域,尽管传统文本的主题挖掘已经得到了广泛的研究,但对于微博这种特殊的文本,因其本身带有一些结构化的社会网络方面的信息,传统的文本挖掘算法不能很好地对它进行建模.提出了一个基于LDA的微博生成模型MB-LDA,综合考虑了微博的联系人关联关系和文本关联关系,来辅助进行微博的主题挖掘.采用吉布斯抽样法对模型进行推导,不仅能挖掘出微博的主题,还能挖掘出联系人关注的主题.此外,模型还能推广到许多带有社交网络性质的文本中.在真实数据集上的实验表明,MB-LDA模型能有效地对微博进行主题挖掘.
隨著微博的日趨流行,Twitter等微博網站已成為海量信息的髮佈體,對微博的研究也需要從單一的用戶關繫分析嚮微博本身內容的挖掘進行轉變.在數據挖掘領域,儘管傳統文本的主題挖掘已經得到瞭廣汎的研究,但對于微博這種特殊的文本,因其本身帶有一些結構化的社會網絡方麵的信息,傳統的文本挖掘算法不能很好地對它進行建模.提齣瞭一箇基于LDA的微博生成模型MB-LDA,綜閤攷慮瞭微博的聯繫人關聯關繫和文本關聯關繫,來輔助進行微博的主題挖掘.採用吉佈斯抽樣法對模型進行推導,不僅能挖掘齣微博的主題,還能挖掘齣聯繫人關註的主題.此外,模型還能推廣到許多帶有社交網絡性質的文本中.在真實數據集上的實驗錶明,MB-LDA模型能有效地對微博進行主題挖掘.
수착미박적일추류행,Twitter등미박망참이성위해량신식적발포체,대미박적연구야수요종단일적용호관계분석향미박본신내용적알굴진행전변.재수거알굴영역,진관전통문본적주제알굴이경득도료엄범적연구,단대우미박저충특수적문본,인기본신대유일사결구화적사회망락방면적신식,전통적문본알굴산법불능흔호지대타진행건모.제출료일개기우LDA적미박생성모형MB-LDA,종합고필료미박적련계인관련관계화문본관련관계,래보조진행미박적주제알굴.채용길포사추양법대모형진행추도,불부능알굴출미박적주제,환능알굴출련계인관주적주제.차외,모형환능추엄도허다대유사교망락성질적문본중.재진실수거집상적실험표명,MB-LDA모형능유효지대미박진행주제알굴.