计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2013年
9期
1943-1953
,共11页
谭文堂%王桢文%殷风景%葛斌%肖卫东
譚文堂%王楨文%慇風景%葛斌%肖衛東
담문당%왕정문%은풍경%갈빈%초위동
比较性文本挖掘%部分比较性%部分比较性跨文本集LDA模型%话题模型%Gibbs抽样
比較性文本挖掘%部分比較性%部分比較性跨文本集LDA模型%話題模型%Gibbs抽樣
비교성문본알굴%부분비교성%부분비교성과문본집LDA모형%화제모형%Gibbs추양
comparative text mining%partial comparative%partial comparative cross collections LDA model (PCCLDA)%topic model%Gibbs sampling
跨时空、跨文化文本挖掘等比较性文本挖掘(comparative text mining,CTM)旨在从多个可比的文本集中发现各文本集隐含语义结构的异同.针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种部分比较性跨文本集LDA模型(partial comparative cross collections LDA model,PCCLDA)来实现跨文本集的话题分析,该模型通过层次狄利克雷过程(hierarchical Dirichlet processes,HDP)把话题划分为公共话题和文本集特有话题,使模型能更加精确地对文本进行建模.模型采用Gibbs抽样方法进行参数推导,一系列包括Held-Out数据对数似然和模型困惑度指标在内的定量与定性的实验表明,模型不仅能够发现公共话题在不同文本集中的差异,而且能分析各文本集特有的话题;在Held-Out对数似然测度和模型困惑度指标上,PCCLDA相对当前两个主要的CTM模型具有较大的优势.
跨時空、跨文化文本挖掘等比較性文本挖掘(comparative text mining,CTM)旨在從多箇可比的文本集中髮現各文本集隱含語義結構的異同.針對噹前主要的CTM模型隻能分析公共話題的缺陷,提齣一種部分比較性跨文本集LDA模型(partial comparative cross collections LDA model,PCCLDA)來實現跨文本集的話題分析,該模型通過層次狄利剋雷過程(hierarchical Dirichlet processes,HDP)把話題劃分為公共話題和文本集特有話題,使模型能更加精確地對文本進行建模.模型採用Gibbs抽樣方法進行參數推導,一繫列包括Held-Out數據對數似然和模型睏惑度指標在內的定量與定性的實驗錶明,模型不僅能夠髮現公共話題在不同文本集中的差異,而且能分析各文本集特有的話題;在Held-Out對數似然測度和模型睏惑度指標上,PCCLDA相對噹前兩箇主要的CTM模型具有較大的優勢.
과시공、과문화문본알굴등비교성문본알굴(comparative text mining,CTM)지재종다개가비적문본집중발현각문본집은함어의결구적이동.침대당전주요적CTM모형지능분석공공화제적결함,제출일충부분비교성과문본집LDA모형(partial comparative cross collections LDA model,PCCLDA)래실현과문본집적화제분석,해모형통과층차적리극뢰과정(hierarchical Dirichlet processes,HDP)파화제화분위공공화제화문본집특유화제,사모형능경가정학지대문본진행건모.모형채용Gibbs추양방법진행삼수추도,일계렬포괄Held-Out수거대수사연화모형곤혹도지표재내적정량여정성적실험표명,모형불부능구발현공공화제재불동문본집중적차이,이차능분석각문본집특유적화제;재Held-Out대수사연측도화모형곤혹도지표상,PCCLDA상대당전량개주요적CTM모형구유교대적우세.