计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2012年
9期
160-165
,共6页
林江豪%阳爱民%周咏梅%陈锦%蔡泽键
林江豪%暘愛民%週詠梅%陳錦%蔡澤鍵
림강호%양애민%주영매%진금%채택건
微博%文本情感分类%二次情感特征提取%朴素贝叶斯
微博%文本情感分類%二次情感特徵提取%樸素貝葉斯
미박%문본정감분류%이차정감특정제취%박소패협사
本文基于二次情感特征提取算法,利用句法依存关系进行一次文本情感特征提取,在此基础上,利用情感词典,进行二次情感特征提取.构建朴素贝叶斯分类器,对采集的热门话题微博和酒店评论进行文本情感倾向性分类.主要比较了表情符号、标点符号,基于情感词典的特征提取和基于二次情感特征提取方法,在不同的组合下的分类性能,寻找更佳的微博文本情感分类预处理方法.并与酒店评论情感分类结果对比、分析,发现影响微博情感分类性能的原因.实验结果表明,二次特征提取方法在分类上取得更高的F1.实验最佳的分类预处理方式是“表情符号十标点符号十二次情感特征提取+BOOL值”.同时发现,朴素贝叶斯在酒店评论情感分类取得更高的分类性能,主要是微博评价对象多样化造成的.
本文基于二次情感特徵提取算法,利用句法依存關繫進行一次文本情感特徵提取,在此基礎上,利用情感詞典,進行二次情感特徵提取.構建樸素貝葉斯分類器,對採集的熱門話題微博和酒店評論進行文本情感傾嚮性分類.主要比較瞭錶情符號、標點符號,基于情感詞典的特徵提取和基于二次情感特徵提取方法,在不同的組閤下的分類性能,尋找更佳的微博文本情感分類預處理方法.併與酒店評論情感分類結果對比、分析,髮現影響微博情感分類性能的原因.實驗結果錶明,二次特徵提取方法在分類上取得更高的F1.實驗最佳的分類預處理方式是“錶情符號十標點符號十二次情感特徵提取+BOOL值”.同時髮現,樸素貝葉斯在酒店評論情感分類取得更高的分類性能,主要是微博評價對象多樣化造成的.
본문기우이차정감특정제취산법,이용구법의존관계진행일차문본정감특정제취,재차기출상,이용정감사전,진행이차정감특정제취.구건박소패협사분류기,대채집적열문화제미박화주점평론진행문본정감경향성분류.주요비교료표정부호、표점부호,기우정감사전적특정제취화기우이차정감특정제취방법,재불동적조합하적분류성능,심조경가적미박문본정감분류예처리방법.병여주점평론정감분류결과대비、분석,발현영향미박정감분류성능적원인.실험결과표명,이차특정제취방법재분류상취득경고적F1.실험최가적분류예처리방식시“표정부호십표점부호십이차정감특정제취+BOOL치”.동시발현,박소패협사재주점평론정감분류취득경고적분류성능,주요시미박평개대상다양화조성적.