计算机应用研究
計算機應用研究
계산궤응용연구
APPLICATION RESEARCH OF COMPUTERS
2015年
1期
21-25
,共5页
李锋刚%梁钰%GAO Xiao-zhi%ZENGER Kai
李鋒剛%樑鈺%GAO Xiao-zhi%ZENGER Kai
리봉강%량옥%GAO Xiao-zhi%ZENGER Kai
文本分类%潜在狄利克雷分布%支持向量机%权重计算%吉普斯抽样
文本分類%潛在狄利剋雷分佈%支持嚮量機%權重計算%吉普斯抽樣
문본분류%잠재적리극뢰분포%지지향량궤%권중계산%길보사추양
text categorization%latent Dirichlet allocation (LDA)%support vector machine (SVM)%weight calculation%Gibbs sampling
SVM分类算法处理高维数据具有较大优势,但其未考虑语义的相似性度量问题,而LDA主题模型可以解决传统的文本分类中相似性度量和主题单一性问题.为了充分结合SVM和LDA算法的优势并提高分类精确度,提出了一种新的LDA-wSVM高效分类算法模型.利用LDA主题模型进行建模和特征选择,确定主题数和隐主题—文本矩阵;在经典权重计算方法上作改进,考虑各特征项与类别的关联度,设计了一种新的权重计算方法;在特征词空间上使用这种基于权重计算的wSVM分类器进行分类.实验基于R软件平台对搜狗实验室的新闻文本集进行分类,得到了宏平均值为0.943的高精确度分类结果.实验结果表明,提出的LDA-wSVM模型在文本自动分类中具有很好的优越性能.
SVM分類算法處理高維數據具有較大優勢,但其未攷慮語義的相似性度量問題,而LDA主題模型可以解決傳統的文本分類中相似性度量和主題單一性問題.為瞭充分結閤SVM和LDA算法的優勢併提高分類精確度,提齣瞭一種新的LDA-wSVM高效分類算法模型.利用LDA主題模型進行建模和特徵選擇,確定主題數和隱主題—文本矩陣;在經典權重計算方法上作改進,攷慮各特徵項與類彆的關聯度,設計瞭一種新的權重計算方法;在特徵詞空間上使用這種基于權重計算的wSVM分類器進行分類.實驗基于R軟件平檯對搜狗實驗室的新聞文本集進行分類,得到瞭宏平均值為0.943的高精確度分類結果.實驗結果錶明,提齣的LDA-wSVM模型在文本自動分類中具有很好的優越性能.
SVM분류산법처리고유수거구유교대우세,단기미고필어의적상사성도량문제,이LDA주제모형가이해결전통적문본분류중상사성도량화주제단일성문제.위료충분결합SVM화LDA산법적우세병제고분류정학도,제출료일충신적LDA-wSVM고효분류산법모형.이용LDA주제모형진행건모화특정선택,학정주제수화은주제—문본구진;재경전권중계산방법상작개진,고필각특정항여유별적관련도,설계료일충신적권중계산방법;재특정사공간상사용저충기우권중계산적wSVM분류기진행분류.실험기우R연건평태대수구실험실적신문문본집진행분류,득도료굉평균치위0.943적고정학도분류결과.실험결과표명,제출적LDA-wSVM모형재문본자동분류중구유흔호적우월성능.