中国电子科学研究院学报
中國電子科學研究院學報
중국전자과학연구원학보
JOURNAL OF CHINA ACADEMY OF ELECTRONICS AND INFORMATION TECHNOLOGY
2012年
3期
246-251
,共6页
李艳玲%郭文普%徐东辉
李豔玲%郭文普%徐東輝
리염령%곽문보%서동휘
不平衡数据%文本分类%重取样%权重润饰%组合
不平衡數據%文本分類%重取樣%權重潤飾%組閤
불평형수거%문본분류%중취양%권중윤식%조합
imbalanced data set%text classification%re-sampling%weight retouching%combination
针对数据挖掘和机器学习领域中常遇到的数据不平衡问题,分析了数据的不平衡性及目前解决不平衡问题的主要策略,提出了一种基于组合的不平衡数据分类方法,该方法将数据重取样与权重润饰结合,以降低分类器对大类别的偏好。实验结果表明,权重润饰能够较好的弥补重取样方法的某些不足,该组合方法可有效提高不平衡数据分类精度。
針對數據挖掘和機器學習領域中常遇到的數據不平衡問題,分析瞭數據的不平衡性及目前解決不平衡問題的主要策略,提齣瞭一種基于組閤的不平衡數據分類方法,該方法將數據重取樣與權重潤飾結閤,以降低分類器對大類彆的偏好。實驗結果錶明,權重潤飾能夠較好的瀰補重取樣方法的某些不足,該組閤方法可有效提高不平衡數據分類精度。
침대수거알굴화궤기학습영역중상우도적수거불평형문제,분석료수거적불평형성급목전해결불평형문제적주요책략,제출료일충기우조합적불평형수거분류방법,해방법장수거중취양여권중윤식결합,이강저분류기대대유별적편호。실험결과표명,권중윤식능구교호적미보중취양방법적모사불족,해조합방법가유효제고불평형수거분류정도。
In view of the data imbalance problem which often encounter in the field of data mining and machine learning, the unbalancedness of data and the main strategy to solve the problems of imbalances are analyzed. A kind of imbalance data classification method based on combination is put forward. The new method combines data resampling and weight retouching in order to reduce the preferences of the classifier to big categories. The experimental results show that the weight retouching can make up for some deficiencies of the resampling method better. This combination method can effectively improve the classification accuracy of the imbalance data.