计算机工程与科学
計算機工程與科學
계산궤공정여과학
Computer Engineering and Science
2015年
9期
1761-1767
,共7页
黄贤英%陈红阳%刘英涛%熊李媛
黃賢英%陳紅暘%劉英濤%熊李媛
황현영%진홍양%류영도%웅리원
微博短文本%特征词选择%统计与语义信息%词性组合%朴素贝叶斯分类算法
微博短文本%特徵詞選擇%統計與語義信息%詞性組閤%樸素貝葉斯分類算法
미박단문본%특정사선택%통계여어의신식%사성조합%박소패협사분류산법
micro-blog short text%feature selection%statistics and semantic information%POS grouping%Naive Bayesian classification algorithm
针对微博短文本有效特征较稀疏且难以提取,从而影响微博文本表示、分类与聚类准确性的问题,提出一种基于统计与语义信息相结合的微博短文本特征词选择算法.该算法基于词性组合匹配规则,根据词项的TF-IDF、词性与词长因子构造综合评估函数,结合词项与文本内容的语义相关度,对微博短文本进行特征词选择,以使挑选出来的特征词能准确表示微博短文本内容主题.将新的特征词选择算法与朴素贝叶斯分类算法相结合,对微博分类语料集进行实验,结果表明,相比其它的传统算法,新算法使得微博短文本分类准确率更高,表明该算法选取出来的特征词能够更准确地表示微博短文本内容主题.
針對微博短文本有效特徵較稀疏且難以提取,從而影響微博文本錶示、分類與聚類準確性的問題,提齣一種基于統計與語義信息相結閤的微博短文本特徵詞選擇算法.該算法基于詞性組閤匹配規則,根據詞項的TF-IDF、詞性與詞長因子構造綜閤評估函數,結閤詞項與文本內容的語義相關度,對微博短文本進行特徵詞選擇,以使挑選齣來的特徵詞能準確錶示微博短文本內容主題.將新的特徵詞選擇算法與樸素貝葉斯分類算法相結閤,對微博分類語料集進行實驗,結果錶明,相比其它的傳統算法,新算法使得微博短文本分類準確率更高,錶明該算法選取齣來的特徵詞能夠更準確地錶示微博短文本內容主題.
침대미박단문본유효특정교희소차난이제취,종이영향미박문본표시、분류여취류준학성적문제,제출일충기우통계여어의신식상결합적미박단문본특정사선택산법.해산법기우사성조합필배규칙,근거사항적TF-IDF、사성여사장인자구조종합평고함수,결합사항여문본내용적어의상관도,대미박단문본진행특정사선택,이사도선출래적특정사능준학표시미박단문본내용주제.장신적특정사선택산법여박소패협사분류산법상결합,대미박분류어료집진행실험,결과표명,상비기타적전통산법,신산법사득미박단문본분류준학솔경고,표명해산법선취출래적특정사능구경준학지표시미박단문본내용주제.