中文信息学报
中文信息學報
중문신식학보
Journal of Chinese Information Processing
2015年
4期
111-119
,共9页
文本分类%不平衡问题%特征选择%主导性分析%区分能力
文本分類%不平衡問題%特徵選擇%主導性分析%區分能力
문본분류%불평형문제%특정선택%주도성분석%구분능력
text categorization%imbalanced problem%feature selection%dominance analysis%discriminative ability
文本分类中的不平衡数据问题在现实应用中比较普遍.传统的特征选择方法在不平衡问题上倾向于多数类而忽略稀有类.针对这种倾向性该文提出了一种主导性分析量化方法,并基于对该方法的优化提出了一种基于类别区分能力的特征选择方法,即DA(Discriminative Ability)方法,该方法使用文档概率的最小绝对值差作为评分标准,一定程度上保证了特征选择在稀有类与多数类上的公平性.实验表明,DA优于CHI、IG、DFICF,尤其在F1宏平均指标上,DA在不平衡问题上能够取得更好的降维效果.
文本分類中的不平衡數據問題在現實應用中比較普遍.傳統的特徵選擇方法在不平衡問題上傾嚮于多數類而忽略稀有類.針對這種傾嚮性該文提齣瞭一種主導性分析量化方法,併基于對該方法的優化提齣瞭一種基于類彆區分能力的特徵選擇方法,即DA(Discriminative Ability)方法,該方法使用文檔概率的最小絕對值差作為評分標準,一定程度上保證瞭特徵選擇在稀有類與多數類上的公平性.實驗錶明,DA優于CHI、IG、DFICF,尤其在F1宏平均指標上,DA在不平衡問題上能夠取得更好的降維效果.
문본분류중적불평형수거문제재현실응용중비교보편.전통적특정선택방법재불평형문제상경향우다수류이홀략희유류.침대저충경향성해문제출료일충주도성분석양화방법,병기우대해방법적우화제출료일충기우유별구분능력적특정선택방법,즉DA(Discriminative Ability)방법,해방법사용문당개솔적최소절대치차작위평분표준,일정정도상보증료특정선택재희유류여다수류상적공평성.실험표명,DA우우CHI、IG、DFICF,우기재F1굉평균지표상,DA재불평형문제상능구취득경호적강유효과.