计算机应用研究
計算機應用研究
계산궤응용연구
APPLICATION RESEARCH OF COMPUTERS
2015年
3期
768-770,785
,共4页
郑涛%王路路%杨冰%姬东鸿
鄭濤%王路路%楊冰%姬東鴻
정도%왕로로%양빙%희동홍
主题模型%主题发现%PBTM%吉布斯采样%分布式计算
主題模型%主題髮現%PBTM%吉佈斯採樣%分佈式計算
주제모형%주제발현%PBTM%길포사채양%분포식계산
topic model%topic discovery%PBTM (parallel biterm topic model)%Gibbs sample%distributed computing
BTM(biterm topic model)能较好挖掘出微博主题.但面对海量微博,BTM无法胜任,因为BTM挖掘主题速度过慢.基于此,提出一种基于吉布斯采样本主机biterm元组来更新主题单词全局矩阵的分布式的BTM模型PBTM(parallel biterm topic model),通过多台主机同时对语料库进行本主机biterm吉布斯采样,然后每次迭代后更新全局主题单词矩阵,直到采样收敛.通过MPI集群实现PBTM模型,实验结果表明,PBTM主题挖掘微博文本速度较BTM大大加快.
BTM(biterm topic model)能較好挖掘齣微博主題.但麵對海量微博,BTM無法勝任,因為BTM挖掘主題速度過慢.基于此,提齣一種基于吉佈斯採樣本主機biterm元組來更新主題單詞全跼矩陣的分佈式的BTM模型PBTM(parallel biterm topic model),通過多檯主機同時對語料庫進行本主機biterm吉佈斯採樣,然後每次迭代後更新全跼主題單詞矩陣,直到採樣收斂.通過MPI集群實現PBTM模型,實驗結果錶明,PBTM主題挖掘微博文本速度較BTM大大加快.
BTM(biterm topic model)능교호알굴출미박주제.단면대해량미박,BTM무법성임,인위BTM알굴주제속도과만.기우차,제출일충기우길포사채양본주궤biterm원조래경신주제단사전국구진적분포식적BTM모형PBTM(parallel biterm topic model),통과다태주궤동시대어료고진행본주궤biterm길포사채양,연후매차질대후경신전국주제단사구진,직도채양수렴.통과MPI집군실현PBTM모형,실험결과표명,PBTM주제알굴미박문본속도교BTM대대가쾌.