东北电力大学学报
東北電力大學學報
동북전력대학학보
JOURNAL OF NORTHEAST DIANLI UNIVERSITY
2014年
4期
62-68
,共7页
特征选择%文本分类%相对贡献率%特征频度
特徵選擇%文本分類%相對貢獻率%特徵頻度
특정선택%문본분류%상대공헌솔%특정빈도
Feature selection%Text categorization%Relative contribution%Characteristic frequency
特征选择是文本分类过程中极其重要的一个环节。本文提出了一种新的特征选择算法,该算法基于一个特征频度相对于其它特征频度的差值的总和衡量其相对贡献率的大小,从而进行特征选择。本文使用了基准数据集20-Newgroups,在朴素贝叶斯和支持向量机两个分类器上对该方法进行了验证。实验结果表明,与信息增益、互信息,几率比和DIA相关因子等四种流行的特征选择算法相比,该算法有效降低了文本的特征维数,提高了分类精度。
特徵選擇是文本分類過程中極其重要的一箇環節。本文提齣瞭一種新的特徵選擇算法,該算法基于一箇特徵頻度相對于其它特徵頻度的差值的總和衡量其相對貢獻率的大小,從而進行特徵選擇。本文使用瞭基準數據集20-Newgroups,在樸素貝葉斯和支持嚮量機兩箇分類器上對該方法進行瞭驗證。實驗結果錶明,與信息增益、互信息,幾率比和DIA相關因子等四種流行的特徵選擇算法相比,該算法有效降低瞭文本的特徵維數,提高瞭分類精度。
특정선택시문본분류과정중겁기중요적일개배절。본문제출료일충신적특정선택산법,해산법기우일개특정빈도상대우기타특정빈도적차치적총화형량기상대공헌솔적대소,종이진행특정선택。본문사용료기준수거집20-Newgroups,재박소패협사화지지향량궤량개분류기상대해방법진행료험증。실험결과표명,여신식증익、호신식,궤솔비화DIA상관인자등사충류행적특정선택산법상비,해산법유효강저료문본적특정유수,제고료분류정도。
Feature selection in text categorization process is extremely important part. We consider a character-istic frequency of the frequency with respect to other features of the sum of the difference,proposed a new fea-ture selection method,the relative contribution of feature selection method(RC method). Experiments using benchmark data sets 20-Newgroups, using Naive Bayes and support vector machine two classification algo-rithms,experimental results show that,in contrast to information gain,mutual information,odds ratio and DIA associated factor four well-known feature selection algorithm,the methods for effectively reducing the character-istic dimension of the text,to improve the classification accuracy.