电子学报
電子學報
전자학보
ACTA ELECTRONICA SINICA
2012年
11期
2346-2350
,共5页
主题模型%LDA模型%TC_LDA模型%文档聚类
主題模型%LDA模型%TC_LDA模型%文檔聚類
주제모형%LDA모형%TC_LDA모형%문당취류
为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allocation)模型和TC_ LDA模型的聚类算法.TC_ LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法.
為瞭實現普通文本語料庫和數字圖書語料庫的有效聚類,分彆提齣基于傳統LDA(Latent Dirichlet Allocation)模型和TC_ LDA模型的聚類算法.TC_ LDA模型在LDA模型基礎上進行擴展,通過對圖書文檔的目錄和正文信息聯閤進行主題建模.和傳統方法不同,基于主題模型的聚類算法能將具備同一主題的文檔聚為一類.實驗結果錶明從主題分析角度齣髮實現的聚類算法優于傳統的聚類算法.
위료실현보통문본어료고화수자도서어료고적유효취류,분별제출기우전통LDA(Latent Dirichlet Allocation)모형화TC_ LDA모형적취류산법.TC_ LDA모형재LDA모형기출상진행확전,통과대도서문당적목록화정문신식연합진행주제건모.화전통방법불동,기우주제모형적취류산법능장구비동일주제적문당취위일류.실험결과표명종주제분석각도출발실현적취류산법우우전통적취류산법.