计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2014年
19期
113-117,142
,共6页
徐明%高翔%许志刚%刘磊
徐明%高翔%許誌剛%劉磊
서명%고상%허지강%류뢰
微博分类%卡方统计量%特征选择%权值计算
微博分類%卡方統計量%特徵選擇%權值計算
미박분류%잡방통계량%특정선택%권치계산
microblogging classification%CHI-square statistics%feature selection%weight calculation
通过对微博文本特征信息的分析与研究,提出一种基于改进卡方统计的微博特征提取方法。扩充微博信息分类特征,在传统的卡方统计量的基础上,引入了频度等因素,改进特征选择方法;在传统的特征项权值计算的基础上,提出了新的改进卡方统计量的方法,改进权重计算效果。对上述方法利用经典KNN和SVM算法进行了测试,实验结果表明该方法提高了微博信息分类的准确率。
通過對微博文本特徵信息的分析與研究,提齣一種基于改進卡方統計的微博特徵提取方法。擴充微博信息分類特徵,在傳統的卡方統計量的基礎上,引入瞭頻度等因素,改進特徵選擇方法;在傳統的特徵項權值計算的基礎上,提齣瞭新的改進卡方統計量的方法,改進權重計算效果。對上述方法利用經典KNN和SVM算法進行瞭測試,實驗結果錶明該方法提高瞭微博信息分類的準確率。
통과대미박문본특정신식적분석여연구,제출일충기우개진잡방통계적미박특정제취방법。확충미박신식분류특정,재전통적잡방통계량적기출상,인입료빈도등인소,개진특정선택방법;재전통적특정항권치계산적기출상,제출료신적개진잡방통계량적방법,개진권중계산효과。대상술방법이용경전KNN화SVM산법진행료측시,실험결과표명해방법제고료미박신식분류적준학솔。
This paper analyzes the microblogging text feature information, and proposes a microblogging feature extraction method based on improved chi-square statistic. Firstly, the microblogging information classification features are expanded, microblogging features are increased frequency and other factors. It improves the traditional feature selection methods. Then, based on the traditional feature item weight calculation, the paper proposes a new improved method of CHI-square statistic for improving weight calculation results. Finally, the above method is tested by using the classical KNN and SVM algorithm, the experimental results show that this method improves the micro-blog information classification accuracy.