科技通报
科技通報
과기통보
BULLETIN OF SCIENCE AND TECHNOLOGY
2013年
8期
139-141
,共3页
模式分类%偏置选择变量%不平衡度%泛化性能
模式分類%偏置選擇變量%不平衡度%汎化性能
모식분류%편치선택변량%불평형도%범화성능
pattern classification%bias selection variables%the imbalanced degree%generalization performance
不平衡数据分类是模式分类领域较难处理的一类问题,其主要原因在于类间样本数目不均衡。为了有效地提高不平衡数据分类效果,本文提出了一种引入偏置选择变量的不平衡数据集重采样算法。该算法引入一个偏置选择变量,该变量定义了多数类样本被取样的概率。通过引入偏置选择变量可以有效地降低不平衡度,因此能很好地提高分类算法在不平衡数据集上的泛化性能。在人工生成数据集上的分类实验充分验证了本文重采样算法的有效性。
不平衡數據分類是模式分類領域較難處理的一類問題,其主要原因在于類間樣本數目不均衡。為瞭有效地提高不平衡數據分類效果,本文提齣瞭一種引入偏置選擇變量的不平衡數據集重採樣算法。該算法引入一箇偏置選擇變量,該變量定義瞭多數類樣本被取樣的概率。通過引入偏置選擇變量可以有效地降低不平衡度,因此能很好地提高分類算法在不平衡數據集上的汎化性能。在人工生成數據集上的分類實驗充分驗證瞭本文重採樣算法的有效性。
불평형수거분류시모식분류영역교난처리적일류문제,기주요원인재우류간양본수목불균형。위료유효지제고불평형수거분류효과,본문제출료일충인입편치선택변량적불평형수거집중채양산법。해산법인입일개편치선택변량,해변량정의료다수류양본피취양적개솔。통과인입편치선택변량가이유효지강저불평형도,인차능흔호지제고분류산법재불평형수거집상적범화성능。재인공생성수거집상적분류실험충분험증료본문중채양산법적유효성。
Imbalanced data classification is more difficult to handle in the field of pattern classification, mainly due to the uneven number of samples between classes. In order to effectively improve the classification performance on imbalanced data set, this paper proposes an imbalanced data set resampling algorithm by introducing bias selection variable. The al-gorithm introduced a bias selection variable, which defines the sampling probability of the majority class sample. By in-troducing bias selection variables, the imbalanced degree of data sets can be effectively reduced, and thus the generaliza-tion performance of the classification algorithm on imbalanced data sets can be improved . Classification experiments on artificially generated data sets fully verify the validity of this proposed algorithm.