中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2007年
6期
88-94,108
,共8页
计算机应用%中文信息处理%情感分类%文本分类%语言模型%中文信息处理
計算機應用%中文信息處理%情感分類%文本分類%語言模型%中文信息處理
계산궤응용%중문신식처리%정감분류%문본분류%어언모형%중문신식처리
情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息.目前针对中文情感分类的研究相对较少,其中各种有监督学习方法的分类效果以及文本特征表示方法和特征选择机制等因素对分类性能的影响更是亟待研究的问题.本文以n-gram以及名词、动词、形容词、副词作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,以中心向量法、KNN、Winnow、Naive Bayes和SVM作为不同的文本分类方法,在不同的特征数量和不同规模的训练集情况下,分别进行了中文情感分类实验,并对实验结果进行了比较,对比结果表明:采用BiGrams特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,情感分类能取得较好的效果.
情感分類是一項具有較大實用價值的分類技術,它可以在一定程度上解決網絡評論信息雜亂的現象,方便用戶準確定位所需信息.目前針對中文情感分類的研究相對較少,其中各種有鑑督學習方法的分類效果以及文本特徵錶示方法和特徵選擇機製等因素對分類性能的影響更是亟待研究的問題.本文以n-gram以及名詞、動詞、形容詞、副詞作為不同的文本錶示特徵,以互信息、信息增益、CHI統計量和文檔頻率作為不同的特徵選擇方法,以中心嚮量法、KNN、Winnow、Naive Bayes和SVM作為不同的文本分類方法,在不同的特徵數量和不同規模的訓練集情況下,分彆進行瞭中文情感分類實驗,併對實驗結果進行瞭比較,對比結果錶明:採用BiGrams特徵錶示方法、信息增益特徵選擇方法和SVM分類方法,在足夠大訓練集和選擇適噹數量特徵的情況下,情感分類能取得較好的效果.
정감분류시일항구유교대실용개치적분류기술,타가이재일정정도상해결망락평론신식잡란적현상,방편용호준학정위소수신식.목전침대중문정감분류적연구상대교소,기중각충유감독학습방법적분류효과이급문본특정표시방법화특정선택궤제등인소대분류성능적영향경시극대연구적문제.본문이n-gram이급명사、동사、형용사、부사작위불동적문본표시특정,이호신식、신식증익、CHI통계량화문당빈솔작위불동적특정선택방법,이중심향량법、KNN、Winnow、Naive Bayes화SVM작위불동적문본분류방법,재불동적특정수량화불동규모적훈련집정황하,분별진행료중문정감분류실험,병대실험결과진행료비교,대비결과표명:채용BiGrams특정표시방법、신식증익특정선택방법화SVM분류방법,재족구대훈련집화선택괄당수량특정적정황하,정감분류능취득교호적효과.