计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2015年
13期
126-130,144
,共6页
微博%主题挖掘%AT模型%吉布斯采样
微博%主題挖掘%AT模型%吉佈斯採樣
미박%주제알굴%AT모형%길포사채양
micro-blog%topic mining%author-topic model%Gibbs sampling
随着微博的日趋流行与广泛使用,新浪等微博网站已经成为海量信息的来源,虽然传统的文本主题挖掘方法已经得到广泛的应用研究,但对于微博这种特殊结构的文本,传统的挖掘算法不能很好地对其进行研究。为了弥补目前微博平台主题挖掘方法的不足,以及考虑到微博信息的稀疏性,多维性等特点,提出有针对性的预处理方法,将用户微博数据与AT模型结合,通过吉布斯采样进行微博主题挖掘,对作者主题进一步提取得到用户兴趣。通过在真实数据集上的实验,以及与LDA模型对比,证明该模型能有效得到微博主题。
隨著微博的日趨流行與廣汎使用,新浪等微博網站已經成為海量信息的來源,雖然傳統的文本主題挖掘方法已經得到廣汎的應用研究,但對于微博這種特殊結構的文本,傳統的挖掘算法不能很好地對其進行研究。為瞭瀰補目前微博平檯主題挖掘方法的不足,以及攷慮到微博信息的稀疏性,多維性等特點,提齣有針對性的預處理方法,將用戶微博數據與AT模型結閤,通過吉佈斯採樣進行微博主題挖掘,對作者主題進一步提取得到用戶興趣。通過在真實數據集上的實驗,以及與LDA模型對比,證明該模型能有效得到微博主題。
수착미박적일추류행여엄범사용,신랑등미박망참이경성위해량신식적래원,수연전통적문본주제알굴방법이경득도엄범적응용연구,단대우미박저충특수결구적문본,전통적알굴산법불능흔호지대기진행연구。위료미보목전미박평태주제알굴방법적불족,이급고필도미박신식적희소성,다유성등특점,제출유침대성적예처리방법,장용호미박수거여AT모형결합,통과길포사채양진행미박주제알굴,대작자주제진일보제취득도용호흥취。통과재진실수거집상적실험,이급여LDA모형대비,증명해모형능유효득도미박주제。
As micro-blog grows more popular and widely used, micro-blogging site such as Sina has become a huge source of information, although the traditional method of texts, topic mining has been extensively applied research. For this special kind of text of micro-blogging, traditional text mining algorithm can not be well studied. In order to compensate the deficiencies of current topic mining for micro-blogging platform and considering the sparsity and multidimensional characteristics of micro-blogging, this paper proposes targeted pretreatment method and combines the users’micro-blogging data with AT model, then mining the micro-blog topics by gibbs sampling, getting users’interest through extracting the topics of authors. Through the experiments on a real data sets, as well as comparison with LDA models prove that the model can get micro-blog topics effectively.