计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2015年
4期
123-127
,共5页
隐含狄利克雷分布%文本分类%支持向量机%特征扩展
隱含狄利剋雷分佈%文本分類%支持嚮量機%特徵擴展
은함적리극뢰분포%문본분류%지지향량궤%특정확전
Latent Dirichlet Allocation(LDA)%text classification%Support Vector Machine(SVM)%feature expanding
针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,最后利用SVM分类方法进行短文本的分类。实验表明,该方法在性能上与传统的直接使用VSM模型来表示短文本特征的方法相比,对不同类别的短文本进行分类,都有不同程度的提高与改进,对于短文本进行补充LDA特征信息的方法是切实可行的。
針對中文短文本篇幅較短、特徵稀疏性等特徵,提齣瞭一種基于隱含狄利剋雷分佈模型的特徵擴展的短文本分類方法。在短文本原始特徵的基礎上,利用LDA主題模型對短文本進行預測,得到對應的主題分佈,把主題中的詞作為短文本的部分特徵,併擴充到原短文本的特徵中去,最後利用SVM分類方法進行短文本的分類。實驗錶明,該方法在性能上與傳統的直接使用VSM模型來錶示短文本特徵的方法相比,對不同類彆的短文本進行分類,都有不同程度的提高與改進,對于短文本進行補充LDA特徵信息的方法是切實可行的。
침대중문단문본편폭교단、특정희소성등특정,제출료일충기우은함적리극뢰분포모형적특정확전적단문본분류방법。재단문본원시특정적기출상,이용LDA주제모형대단문본진행예측,득도대응적주제분포,파주제중적사작위단문본적부분특정,병확충도원단문본적특정중거,최후이용SVM분류방법진행단문본적분류。실험표명,해방법재성능상여전통적직접사용VSM모형래표시단문본특정적방법상비,대불동유별적단문본진행분류,도유불동정도적제고여개진,대우단문본진행보충LDA특정신식적방법시절실가행적。
Based on the short text and characteristics of sparse, put forward a short text classify based on characteristics-extend of LDA. The topic model of LDA is applied for inferring the corresponding topic distribution, as a result, the words of topic are regarded as partial characteristics which will be part of primitive characteristics. Then exploit the method SVM as a classifier. The experiment result shows that, compared with using traditional model VSM directly to represent character of short text, the method performs better on different kinds of short text. Hence, taking character of LDA into consideration is essential.