计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2014年
6期
162-165
,共4页
周剑峰%阳爱民%周咏梅%王璇璇
週劍峰%暘愛民%週詠梅%王璇璇
주검봉%양애민%주영매%왕선선
搭配词库%微博情感特征%微博情感分类%机器学习%C4.5算法
搭配詞庫%微博情感特徵%微博情感分類%機器學習%C4.5算法
탑배사고%미박정감특정%미박정감분류%궤기학습%C4.5산법
collocation dictionary%micro-blog sentimental feature%micro-blog sentimental classification%machine learning%C4.5 algorithm
分析和监测微博文本中所包含的情感信息,能够挖掘用户行为,为微博舆情监管提供借鉴.但微博文本具有长度较短、不规范、存在大量变形词和新词等特点,仅以情感词为特征对微博进行分类的方法准确率较低,难以满足实际使用.为此,基于微博语料构建二元搭配词库,并根据PMI-IR算法结合语料库统计信息,提出搭配词组情感权值的计算方法PMI-IR-P.结合情感词典,采用统计方法生成微博情感特征向量,利用机器学习中的C4.5算法构建分类模型,对微博文本进行情感倾向分类.分别使用不同的数据集用于构建搭配词库及分类模型,并与基于情感词典的分类方法以及朴素贝叶斯分类方法进行对比.实验结果表明,提出的情感特征通过运用C4.5算法对微博文本情感分类的准确率达到87%,具有较好的效果.
分析和鑑測微博文本中所包含的情感信息,能夠挖掘用戶行為,為微博輿情鑑管提供藉鑒.但微博文本具有長度較短、不規範、存在大量變形詞和新詞等特點,僅以情感詞為特徵對微博進行分類的方法準確率較低,難以滿足實際使用.為此,基于微博語料構建二元搭配詞庫,併根據PMI-IR算法結閤語料庫統計信息,提齣搭配詞組情感權值的計算方法PMI-IR-P.結閤情感詞典,採用統計方法生成微博情感特徵嚮量,利用機器學習中的C4.5算法構建分類模型,對微博文本進行情感傾嚮分類.分彆使用不同的數據集用于構建搭配詞庫及分類模型,併與基于情感詞典的分類方法以及樸素貝葉斯分類方法進行對比.實驗結果錶明,提齣的情感特徵通過運用C4.5算法對微博文本情感分類的準確率達到87%,具有較好的效果.
분석화감측미박문본중소포함적정감신식,능구알굴용호행위,위미박여정감관제공차감.단미박문본구유장도교단、불규범、존재대량변형사화신사등특점,부이정감사위특정대미박진행분류적방법준학솔교저,난이만족실제사용.위차,기우미박어료구건이원탑배사고,병근거PMI-IR산법결합어료고통계신식,제출탑배사조정감권치적계산방법PMI-IR-P.결합정감사전,채용통계방법생성미박정감특정향량,이용궤기학습중적C4.5산법구건분류모형,대미박문본진행정감경향분류.분별사용불동적수거집용우구건탑배사고급분류모형,병여기우정감사전적분류방법이급박소패협사분류방법진행대비.실험결과표명,제출적정감특정통과운용C4.5산법대미박문본정감분류적준학솔체도87%,구유교호적효과.