中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2009年
4期
48-54
,共7页
计算机应用%中文信息处理%文本分类%向量空间模型%隐含狄利克雷分配%集成分类%随机森林
計算機應用%中文信息處理%文本分類%嚮量空間模型%隱含狄利剋雷分配%集成分類%隨機森林
계산궤응용%중문신식처리%문본분류%향량공간모형%은함적리극뢰분배%집성분류%수궤삼림
基于词的向量空间模型是文本分类中的传统的表示文本的方法.这种表示方法的一个缺点是忽略了词之间的关系.最近一些使用潜在主题文本表示的方法,如隐含狄利克雷分配LDA(Latent Dirichlet Allocation)引起了人们的注意,这种表示方法可以处理词之间的关系.但是,只使用基于潜在主题的文本表示可能造成词信息的损失.我们使用改进的随机森林方法结合基于词的和基于LDA主题的两种文本表示方法.对于两类特征分别构造随机森林,最终分类结果通过投票机制决定.在标准数据集上的实验结果表明,相比只使用一种文本特征的方法,我们的方法可以有效地结合两类特征,提高文本分类的性能.
基于詞的嚮量空間模型是文本分類中的傳統的錶示文本的方法.這種錶示方法的一箇缺點是忽略瞭詞之間的關繫.最近一些使用潛在主題文本錶示的方法,如隱含狄利剋雷分配LDA(Latent Dirichlet Allocation)引起瞭人們的註意,這種錶示方法可以處理詞之間的關繫.但是,隻使用基于潛在主題的文本錶示可能造成詞信息的損失.我們使用改進的隨機森林方法結閤基于詞的和基于LDA主題的兩種文本錶示方法.對于兩類特徵分彆構造隨機森林,最終分類結果通過投票機製決定.在標準數據集上的實驗結果錶明,相比隻使用一種文本特徵的方法,我們的方法可以有效地結閤兩類特徵,提高文本分類的性能.
기우사적향량공간모형시문본분류중적전통적표시문본적방법.저충표시방법적일개결점시홀략료사지간적관계.최근일사사용잠재주제문본표시적방법,여은함적리극뢰분배LDA(Latent Dirichlet Allocation)인기료인문적주의,저충표시방법가이처리사지간적관계.단시,지사용기우잠재주제적문본표시가능조성사신식적손실.아문사용개진적수궤삼림방법결합기우사적화기우LDA주제적량충문본표시방법.대우량류특정분별구조수궤삼림,최종분류결과통과투표궤제결정.재표준수거집상적실험결과표명,상비지사용일충문본특정적방법,아문적방법가이유효지결합량류특정,제고문본분류적성능.