北京交通大学学报
北京交通大學學報
북경교통대학학보
JOURNAL OF NORTHERN JIAOTONG UNIVERSITY
2010年
2期
111-114
,共4页
张小平%周雪忠%黄厚宽%冯奇%陈世波%焦宏官
張小平%週雪忠%黃厚寬%馮奇%陳世波%焦宏官
장소평%주설충%황후관%풍기%진세파%초굉관
LDA%Dirichlet分布%加权主题模型
LDA%Dirichlet分佈%加權主題模型
LDA%Dirichlet분포%가권주제모형
latent dirichlet allocation(LDA)%dirichlet distribution%weighting topic model
由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关性以及复杂度(Perplexity)值都降低,说明改进模型在主题表达和预测性能方面都有所提高.
由于文檔中的詞符閤冪律分佈,使得LDA模型的主題分佈嚮高頻詞傾斜,導緻能夠代錶主題的多數詞被少量的高頻詞淹沒使得主題錶達能力降低.通過一種高斯函數對特徵詞加權,改進LDA主題模型的主題分佈.實驗顯示加權LDA模型穫得的主題間的相關性以及複雜度(Perplexity)值都降低,說明改進模型在主題錶達和預測性能方麵都有所提高.
유우문당중적사부합멱률분포,사득LDA모형적주제분포향고빈사경사,도치능구대표주제적다수사피소량적고빈사엄몰사득주제표체능력강저.통과일충고사함수대특정사가권,개진LDA주제모형적주제분포.실험현시가권LDA모형획득적주제간적상관성이급복잡도(Perplexity)치도강저,설명개진모형재주제표체화예측성능방면도유소제고.
The distribution of words in the document satisfy power rules, which cause the topics incline the high frequency words, and then many words which can represent topics are submerged. It leads to reduce the expression capability of LDA topics. An improved LDA topic model is showed by weighting the feature words using Gauss function. The experiments indicate that the weighting topic model is better generalization performance by validating the correlations among the topics and the perplexity value of model.