工业控制计算机
工業控製計算機
공업공제계산궤
INDUSTRY CONTROL COMPUTER
2015年
8期
110-112
,共3页
数据挖掘%短文本%词对%LDA%主题模型
數據挖掘%短文本%詞對%LDA%主題模型
수거알굴%단문본%사대%LDA%주제모형
data mining%short text%couple word%LDA%topic model
主题模型被用来进行文本主题挖掘已经被证明是一个非常有效的手段,随着即时通讯的发展,挖掘短文本的主题特征也变得越来越重要。由于短文本的稀疏性,把传统的主题模型(如LDA)直接用在短文本上,生成的主题特征效果并不好。在研究LDA主题模型的基础上,提出一种改进的短文本主题特征提取方法。在此方法中,通过对每篇短文本获取“词对”共现的方式来对文本建模,代替传统的“词”共现的方式,这种方式一定程度上能缓解数据稀疏的问题,提高了主题特征的效果。在真实数据集上的实验表明,方法相比于传统主题模型,在短文本特征提取方面有较好的提升。
主題模型被用來進行文本主題挖掘已經被證明是一箇非常有效的手段,隨著即時通訊的髮展,挖掘短文本的主題特徵也變得越來越重要。由于短文本的稀疏性,把傳統的主題模型(如LDA)直接用在短文本上,生成的主題特徵效果併不好。在研究LDA主題模型的基礎上,提齣一種改進的短文本主題特徵提取方法。在此方法中,通過對每篇短文本穫取“詞對”共現的方式來對文本建模,代替傳統的“詞”共現的方式,這種方式一定程度上能緩解數據稀疏的問題,提高瞭主題特徵的效果。在真實數據集上的實驗錶明,方法相比于傳統主題模型,在短文本特徵提取方麵有較好的提升。
주제모형피용래진행문본주제알굴이경피증명시일개비상유효적수단,수착즉시통신적발전,알굴단문본적주제특정야변득월래월중요。유우단문본적희소성,파전통적주제모형(여LDA)직접용재단문본상,생성적주제특정효과병불호。재연구LDA주제모형적기출상,제출일충개진적단문본주제특정제취방법。재차방법중,통과대매편단문본획취“사대”공현적방식래대문본건모,대체전통적“사”공현적방식,저충방식일정정도상능완해수거희소적문제,제고료주제특정적효과。재진실수거집상적실험표명,방법상비우전통주제모형,재단문본특정제취방면유교호적제승。
This paper presents an improved method for short text based on LDA.ln this case,acquiring couple word co-occurrence to model instead of the traditional word co-occurrence way.The method can al eviate the data sparseness problem and improve the performance of the model.The experimental results on real data sets show that the performance of this method has better promotion compared to the traditional topic model.