计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2013年
8期
2280-2282,2292
,共4页
短文本%特征权重%不均衡样本%文本分类
短文本%特徵權重%不均衡樣本%文本分類
단문본%특정권중%불균형양본%문본분류
short text%feature weight%unbalanced sample%text categorization
短文本固有的特征稀疏和样本高度不均衡等特点,使得传统长文本的加权方法难以直接套用.针对此问题,提出一种针对短文本的特征权重计算方法——综合类别法.该方法引入反文档频和相关性频率的概念,综合考虑了样本在正类和负类中的分布情况.实验结果表明,相对于其他特征权重方法,该方法的微平均和宏平均值均在90%以上,能增强样本在负类中的类别区分能力,改善短文本分类的查准率和查全率.
短文本固有的特徵稀疏和樣本高度不均衡等特點,使得傳統長文本的加權方法難以直接套用.針對此問題,提齣一種針對短文本的特徵權重計算方法——綜閤類彆法.該方法引入反文檔頻和相關性頻率的概唸,綜閤攷慮瞭樣本在正類和負類中的分佈情況.實驗結果錶明,相對于其他特徵權重方法,該方法的微平均和宏平均值均在90%以上,能增彊樣本在負類中的類彆區分能力,改善短文本分類的查準率和查全率.
단문본고유적특정희소화양본고도불균형등특점,사득전통장문본적가권방법난이직접투용.침대차문제,제출일충침대단문본적특정권중계산방법——종합유별법.해방법인입반문당빈화상관성빈솔적개념,종합고필료양본재정류화부류중적분포정황.실험결과표명,상대우기타특정권중방법,해방법적미평균화굉평균치균재90%이상,능증강양본재부류중적유별구분능력,개선단문본분류적사준솔화사전솔.