计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2014年
8期
2332-2335
,共4页
潜在狄利克雷分配%主题树%语义相似度%空间向量模型%话题检测
潛在狄利剋雷分配%主題樹%語義相似度%空間嚮量模型%話題檢測
잠재적리극뢰분배%주제수%어의상사도%공간향량모형%화제검측
Latent Dirichlet Allocation (LDA)%topic tree%semantic similarity%Vector Space Model (VSM)%topic detection
针对传统话题检测方法不能很好处理微博中用语不规范、随意性强、指代不明确以及存在大量网络用语的问题,提出了一种基于潜在狄利克雷分配(LDA)模型的主题树检测方法.首先,运用自然语言处理(NLP)中增大信息熵的方法将相关微博整理成一棵主题树,配合狄利克雷先验α与经验值β随主题数目动态变化的设计思想,结合该模型独特的双重概率统计模式,实现了对文本中每个词“贡献度”的统计,提前处理掉干扰信息,排除垃圾数据对话题检测的影响;然后,利用该“贡献度”作为空间向量模型(VSM)改进后的参数值计算文档间相似度来提取突发话题,达到提高突发话题检测精准度的目的.提出的基于LDA模型的主题树检测方法从F值比对与人工检测两个角度进行了相关实验,实验数据显示该算法不仅可以检测到突发话题,而且获得的结果与知网模型和TF-IDF算法相比分别高出3%、7%,且更符合人的判断逻辑.
針對傳統話題檢測方法不能很好處理微博中用語不規範、隨意性彊、指代不明確以及存在大量網絡用語的問題,提齣瞭一種基于潛在狄利剋雷分配(LDA)模型的主題樹檢測方法.首先,運用自然語言處理(NLP)中增大信息熵的方法將相關微博整理成一棵主題樹,配閤狄利剋雷先驗α與經驗值β隨主題數目動態變化的設計思想,結閤該模型獨特的雙重概率統計模式,實現瞭對文本中每箇詞“貢獻度”的統計,提前處理掉榦擾信息,排除垃圾數據對話題檢測的影響;然後,利用該“貢獻度”作為空間嚮量模型(VSM)改進後的參數值計算文檔間相似度來提取突髮話題,達到提高突髮話題檢測精準度的目的.提齣的基于LDA模型的主題樹檢測方法從F值比對與人工檢測兩箇角度進行瞭相關實驗,實驗數據顯示該算法不僅可以檢測到突髮話題,而且穫得的結果與知網模型和TF-IDF算法相比分彆高齣3%、7%,且更符閤人的判斷邏輯.
침대전통화제검측방법불능흔호처리미박중용어불규범、수의성강、지대불명학이급존재대량망락용어적문제,제출료일충기우잠재적리극뢰분배(LDA)모형적주제수검측방법.수선,운용자연어언처리(NLP)중증대신식적적방법장상관미박정리성일과주제수,배합적리극뢰선험α여경험치β수주제수목동태변화적설계사상,결합해모형독특적쌍중개솔통계모식,실현료대문본중매개사“공헌도”적통계,제전처리도간우신식,배제랄급수거대화제검측적영향;연후,이용해“공헌도”작위공간향량모형(VSM)개진후적삼수치계산문당간상사도래제취돌발화제,체도제고돌발화제검측정준도적목적.제출적기우LDA모형적주제수검측방법종F치비대여인공검측량개각도진행료상관실험,실험수거현시해산법불부가이검측도돌발화제,이차획득적결과여지망모형화TF-IDF산법상비분별고출3%、7%,차경부합인적판단라집.