计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2013年
11期
3080-3083
,共4页
主题模型%时序分析%无监督学习%文本模型%困惑度
主題模型%時序分析%無鑑督學習%文本模型%睏惑度
주제모형%시서분석%무감독학습%문본모형%곤혹도
topic model%temporal analysis%unsupervised learning%text model%perplexity
针对挖掘大规模科技文献中作者、主题和时间及其关系的问题,考虑科技文献的内外部特征,提出了一个作者主题演化(AToT)模型.模型中文档表示为一定概率比例的主题混合体,每个主题对应一个词项上的多项分布和一个随时间变化的贝塔分布,主题-词项分布不仅由文档中单词共现决定,同时受文档时间戳影响,每个作者也对应一个主题上的多项分布.主题-词项分布与作者-主题分布分别用来描述主题随时间变化的规律和作者研究兴趣的变化规律.采用吉布斯采样的方法,通过学习文档集可以获得模型的参数.在1 700篇NIPS会议论文集上的实验结果显示,作者主题演化模型可以描述文档集中潜在的主题演化规律,动态发现作者研究兴趣的变化,可以预测与主题相关的作者,与作者主题模型相比计算困惑度更低.
針對挖掘大規模科技文獻中作者、主題和時間及其關繫的問題,攷慮科技文獻的內外部特徵,提齣瞭一箇作者主題縯化(AToT)模型.模型中文檔錶示為一定概率比例的主題混閤體,每箇主題對應一箇詞項上的多項分佈和一箇隨時間變化的貝塔分佈,主題-詞項分佈不僅由文檔中單詞共現決定,同時受文檔時間戳影響,每箇作者也對應一箇主題上的多項分佈.主題-詞項分佈與作者-主題分佈分彆用來描述主題隨時間變化的規律和作者研究興趣的變化規律.採用吉佈斯採樣的方法,通過學習文檔集可以穫得模型的參數.在1 700篇NIPS會議論文集上的實驗結果顯示,作者主題縯化模型可以描述文檔集中潛在的主題縯化規律,動態髮現作者研究興趣的變化,可以預測與主題相關的作者,與作者主題模型相比計算睏惑度更低.
침대알굴대규모과기문헌중작자、주제화시간급기관계적문제,고필과기문헌적내외부특정,제출료일개작자주제연화(AToT)모형.모형중문당표시위일정개솔비례적주제혼합체,매개주제대응일개사항상적다항분포화일개수시간변화적패탑분포,주제-사항분포불부유문당중단사공현결정,동시수문당시간착영향,매개작자야대응일개주제상적다항분포.주제-사항분포여작자-주제분포분별용래묘술주제수시간변화적규률화작자연구흥취적변화규률.채용길포사채양적방법,통과학습문당집가이획득모형적삼수.재1 700편NIPS회의논문집상적실험결과현시,작자주제연화모형가이묘술문당집중잠재적주제연화규률,동태발현작자연구흥취적변화,가이예측여주제상관적작자,여작자주제모형상비계산곤혹도경저.