计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2012年
8期
2346-2349
,共4页
李劲%张华%吴浩雄%向军
李勁%張華%吳浩雄%嚮軍
리경%장화%오호웅%향군
数据挖掘%信息检索%微博%话题模型%文本聚类%互信息
數據挖掘%信息檢索%微博%話題模型%文本聚類%互信息
수거알굴%신식검색%미박%화제모형%문본취류%호신식
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题.为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法.为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐.为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner.实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上.
隨著微博應用的迅猛髮展,自動地從海量微博信息中提取齣用戶感興趣的熱點話題成為一箇具有挑戰性的研究課題.為此研究併提齣瞭基于擴展的話題模型的中文微博熱點話題抽取算法.為瞭解決微博信息固有的數據稀疏性問題,算法首先利用文本聚類方法將內容相關的微博消息閤成為微博文檔;基于微博之間的跟帖關繫蘊含著話題的關聯性的假設,算法對傳統潛在狄利剋雷分配(LDA)話題模型進行擴展以建模微博之間的跟帖關繫;最後利用互信息(MI)計算被抽取齣的話題的話題詞彙用于熱點話題推薦.為瞭驗證擴展的話題抽取模型的有效性,實現瞭一箇基于特定領域的中文微博熱點話題挖掘的原型繫統——BTopicMiner.實驗結果錶明:基于微博跟帖關繫的擴展話題模型可以更準確地自動提取微博中的熱點話題,同時利用MI度量自動計算得到的話題詞彙和人工挑選的熱點詞彙之間的語義相似度達到75%以上.
수착미박응용적신맹발전,자동지종해량미박신식중제취출용호감흥취적열점화제성위일개구유도전성적연구과제.위차연구병제출료기우확전적화제모형적중문미박열점화제추취산법.위료해결미박신식고유적수거희소성문제,산법수선이용문본취류방법장내용상관적미박소식합성위미박문당;기우미박지간적근첩관계온함착화제적관련성적가설,산법대전통잠재적리극뢰분배(LDA)화제모형진행확전이건모미박지간적근첩관계;최후이용호신식(MI)계산피추취출적화제적화제사회용우열점화제추천.위료험증확전적화제추취모형적유효성,실현료일개기우특정영역적중문미박열점화제알굴적원형계통——BTopicMiner.실험결과표명:기우미박근첩관계적확전화제모형가이경준학지자동제취미박중적열점화제,동시이용MI도량자동계산득도적화제사회화인공도선적열점사회지간적어의상사도체도75%이상.