中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2014年
2期
116-121
,共6页
刘振岩%孟丹%王伟平%王勇
劉振巖%孟丹%王偉平%王勇
류진암%맹단%왕위평%왕용
文本分类%偏斜数据集%特征选择%类别差异
文本分類%偏斜數據集%特徵選擇%類彆差異
문본분류%편사수거집%특정선택%유별차이
text categorization%skewed dataset%feature selection%category difference
对于不同类别样本数量差别很大的偏斜文本数据集,使用传统的特征选择方法所选出的特征绝大多数来自于大类,会使得分类器偏重大类而忽略小类,直接影响分类效果.该文首先针对偏斜文本数据集的数据特点,分析发现偏斜数据集中影响特征选择的两个重要因素,即特征项的类别分布和类间差异,其中类别分布因素反映的是特征项在整个数据集中的类别频率差异;而类别差异因素反映的是特征项在不同类别之间的相对文档频率差异.然后基于这两个重要因素构造形成一个新的尤其适用于偏斜文本分类的特征选择函数 相对类别差异(Rel-ative Category Difference,RCD).与传统的特征选择方法进行对比实验的结果表明,RCD特征选择方法对于偏斜文本分类效果更优.
對于不同類彆樣本數量差彆很大的偏斜文本數據集,使用傳統的特徵選擇方法所選齣的特徵絕大多數來自于大類,會使得分類器偏重大類而忽略小類,直接影響分類效果.該文首先針對偏斜文本數據集的數據特點,分析髮現偏斜數據集中影響特徵選擇的兩箇重要因素,即特徵項的類彆分佈和類間差異,其中類彆分佈因素反映的是特徵項在整箇數據集中的類彆頻率差異;而類彆差異因素反映的是特徵項在不同類彆之間的相對文檔頻率差異.然後基于這兩箇重要因素構造形成一箇新的尤其適用于偏斜文本分類的特徵選擇函數 相對類彆差異(Rel-ative Category Difference,RCD).與傳統的特徵選擇方法進行對比實驗的結果錶明,RCD特徵選擇方法對于偏斜文本分類效果更優.
대우불동유별양본수량차별흔대적편사문본수거집,사용전통적특정선택방법소선출적특정절대다수래자우대류,회사득분류기편중대류이홀략소류,직접영향분류효과.해문수선침대편사문본수거집적수거특점,분석발현편사수거집중영향특정선택적량개중요인소,즉특정항적유별분포화류간차이,기중유별분포인소반영적시특정항재정개수거집중적유별빈솔차이;이유별차이인소반영적시특정항재불동유별지간적상대문당빈솔차이.연후기우저량개중요인소구조형성일개신적우기괄용우편사문본분류적특정선택함수 상대유별차이(Rel-ative Category Difference,RCD).여전통적특정선택방법진행대비실험적결과표명,RCD특정선택방법대우편사문본분류효과경우.