电脑知识与技术
電腦知識與技術
전뇌지식여기술
COMPUTER KNOWLEDGE AND TECHNOLOGY
2014年
16期
3795-3797,3823
,共4页
LDA%文本聚类%新闻话题%分类%主题
LDA%文本聚類%新聞話題%分類%主題
LDA%문본취류%신문화제%분류%주제
Latent Dirichlet Allocation%Text Clustering%News Topic%Classification%Topic
针对部分网站中新闻话题没有分类或者分类不清等问题,将LDA模型应用到新闻话题的分类中。首先对新闻数据集进行LDA主题建模,根据贝叶斯标准方法选择最佳主题数,采用Gibbs抽样间接计算出模型参数,得到数据集的主题概率分布;然后根据JS距离计算文档之间的语义相似度,得到相似度矩阵;最后利用增量文本聚类算法对新闻文档聚类,将新闻话题分成若干个不同结构的子话题。实验结果显示表明该方法能有效地实现对新闻话题的划分。
針對部分網站中新聞話題沒有分類或者分類不清等問題,將LDA模型應用到新聞話題的分類中。首先對新聞數據集進行LDA主題建模,根據貝葉斯標準方法選擇最佳主題數,採用Gibbs抽樣間接計算齣模型參數,得到數據集的主題概率分佈;然後根據JS距離計算文檔之間的語義相似度,得到相似度矩陣;最後利用增量文本聚類算法對新聞文檔聚類,將新聞話題分成若榦箇不同結構的子話題。實驗結果顯示錶明該方法能有效地實現對新聞話題的劃分。
침대부분망참중신문화제몰유분류혹자분류불청등문제,장LDA모형응용도신문화제적분류중。수선대신문수거집진행LDA주제건모,근거패협사표준방법선택최가주제수,채용Gibbs추양간접계산출모형삼수,득도수거집적주제개솔분포;연후근거JS거리계산문당지간적어의상사도,득도상사도구진;최후이용증량문본취류산법대신문문당취류,장신문화제분성약간개불동결구적자화제。실험결과현시표명해방법능유효지실현대신문화제적화분。
The LDA model is applied to the classification of news topic on the website because of its no classification or unclear classification. Firstly, news dataset is modeled by LDA modeling, the optimal number of topic is chosen according to Bias standard method, and get the topic probability distribution of dataset by using Gibbs sampling to calculate the model parameters;and then similarity matrix is obtained based on the semantic similarity between documents by computing JS distance;finally, the incremen-tal clustering algorithm is used to cluster news document, and the topic is divided into a number of different structure of the sub topic. The experimental results show that this method can realize the division of news topic effectively.