计算机应用研究
計算機應用研究
계산궤응용연구
APPLICATION RESEARCH OF COMPUTERS
2012年
7期
2454-2456
,共3页
文本分类%特征选择%卡方统计%信息增益
文本分類%特徵選擇%卡方統計%信息增益
문본분류%특정선택%잡방통계%신식증익
通过分析特征词与类别间的相关性,在原有卡方特征选择和信息增益特征选择的基础上提出了两个参数,使得选出的特征词集中分布在某一特定类,并且使特征词在这一类中出现的次数尽可能地多;最后集合CHI与IG两种算法得到一种集合特征选择方法(CCIF).通过实验对比传统的卡方特征选择、信息增益和CCIF方法,CCIF方法使得算法的微平均查准率得到了明显的提高.
通過分析特徵詞與類彆間的相關性,在原有卡方特徵選擇和信息增益特徵選擇的基礎上提齣瞭兩箇參數,使得選齣的特徵詞集中分佈在某一特定類,併且使特徵詞在這一類中齣現的次數儘可能地多;最後集閤CHI與IG兩種算法得到一種集閤特徵選擇方法(CCIF).通過實驗對比傳統的卡方特徵選擇、信息增益和CCIF方法,CCIF方法使得算法的微平均查準率得到瞭明顯的提高.
통과분석특정사여유별간적상관성,재원유잡방특정선택화신식증익특정선택적기출상제출료량개삼수,사득선출적특정사집중분포재모일특정류,병차사특정사재저일류중출현적차수진가능지다;최후집합CHI여IG량충산법득도일충집합특정선택방법(CCIF).통과실험대비전통적잡방특정선택、신식증익화CCIF방법,CCIF방법사득산법적미평균사준솔득도료명현적제고.