电子学报
電子學報
전자학보
ACTA ELECTRONICA SINICA
2013年
9期
1794-1799
,共6页
隐藏狄利克雷分配%文本分析%多标记学习%半监督聚类
隱藏狄利剋雷分配%文本分析%多標記學習%半鑑督聚類
은장적리극뢰분배%문본분석%다표기학습%반감독취류
latent Dirichlet allocation%text analysis%multi-label learning%semi-supervised clustering
隐藏狄利克雷分配(Latent Dirichlet Allocation ,LDA )模型被广泛应用于文本分析、图像识别等领域。但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中。本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labeled LDA模型(Shared Background Topics Labeled LDA ,SBTL-LDA )。在SBTL-LDA模型中每个标记除了存在若干个独享的局部主题外,还存在若干个共享的背景(Background )主题,这样可以有效分析不同标记所含主题之间的依赖关系,而文档标记被映射为局部主题和共享主题的组合,因此SBTL-LDA模型可以有效提升文档标记判别的准确性。同时SBTL-LDA模型还可以看成是一种半监督聚类模型,在对文档进行聚类分析的过程中模型可以有效的利用文档的标记信息提升文档聚类效果。实验证明SBTL-LDA模型能够有效解决PLDA模型中主题之间的相似性和依赖关系,具有良好的多标记判别能力,并且具有优于LDA、PLDA模型的文档聚类效果。
隱藏狄利剋雷分配(Latent Dirichlet Allocation ,LDA )模型被廣汎應用于文本分析、圖像識彆等領域。但由于LDA及其擴展模型多為無鑑督學習模型,無法將其應用于分類任務中。本文通過研究文檔標記與LDA模型中主題的映射關繫,提齣一種新的Labeled LDA模型(Shared Background Topics Labeled LDA ,SBTL-LDA )。在SBTL-LDA模型中每箇標記除瞭存在若榦箇獨享的跼部主題外,還存在若榦箇共享的揹景(Background )主題,這樣可以有效分析不同標記所含主題之間的依賴關繫,而文檔標記被映射為跼部主題和共享主題的組閤,因此SBTL-LDA模型可以有效提升文檔標記判彆的準確性。同時SBTL-LDA模型還可以看成是一種半鑑督聚類模型,在對文檔進行聚類分析的過程中模型可以有效的利用文檔的標記信息提升文檔聚類效果。實驗證明SBTL-LDA模型能夠有效解決PLDA模型中主題之間的相似性和依賴關繫,具有良好的多標記判彆能力,併且具有優于LDA、PLDA模型的文檔聚類效果。
은장적리극뢰분배(Latent Dirichlet Allocation ,LDA )모형피엄범응용우문본분석、도상식별등영역。단유우LDA급기확전모형다위무감독학습모형,무법장기응용우분류임무중。본문통과연구문당표기여LDA모형중주제적영사관계,제출일충신적Labeled LDA모형(Shared Background Topics Labeled LDA ,SBTL-LDA )。재SBTL-LDA모형중매개표기제료존재약간개독향적국부주제외,환존재약간개공향적배경(Background )주제,저양가이유효분석불동표기소함주제지간적의뢰관계,이문당표기피영사위국부주제화공향주제적조합,인차SBTL-LDA모형가이유효제승문당표기판별적준학성。동시SBTL-LDA모형환가이간성시일충반감독취류모형,재대문당진행취류분석적과정중모형가이유효적이용문당적표기신식제승문당취류효과。실험증명SBTL-LDA모형능구유효해결PLDA모형중주제지간적상사성화의뢰관계,구유량호적다표기판별능력,병차구유우우LDA、PLDA모형적문당취류효과。
LDA (Latent Dirichlet Allocation) is widely used in text analysis and images processing .However ,LDA and most of its modifications are unsupervised learning models ,which are not appropriate for classification especially multi-label classification problem .Through the study on the multi-label documents and LDA models ,this paper proposes a new Labeled LDA model ,namely Shared Background Topics Labeled LDA (SBTL-LDA ) .In this new model ,each label has not only a set of local topics ,but also has several background (global ) topics .Experienmental results show that SBTL-LDA can decrease the affect of similarities and de-pendence between different topics and because the label of document is mapped as a combination of local topics and shared topics , so it has a high accuracy when learning from multi-Labeled documents .In addition ,this model can be viewed as a semi-supervised clustering model which can utilize the information of labels and outperfom other models .