计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2015年
1期
121-124,139
,共5页
霍玉丹%谷琼%蔡之华%袁磊
霍玉丹%穀瓊%蔡之華%袁磊
곽옥단%곡경%채지화%원뢰
非平衡数据集%分类%少数类样本合成过采样技术%采样倍率%遗传算法
非平衡數據集%分類%少數類樣本閤成過採樣技術%採樣倍率%遺傳算法
비평형수거집%분류%소수류양본합성과채양기술%채양배솔%유전산법
imbalance dataset%classification%Synthetic Minority Over-sampling Technique (SMOTE)%sampling rate%Genetic Algorithm (GA)
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE.首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样.在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点.该方法可作为一种新的解决非平衡数据集分类问题的过采样技术.
針對少數類樣本閤成過採樣技術(SMOTE)在處理非平衡數據集分類問題時,為少數類的不同樣本設置相同的採樣倍率,存在一定的盲目性的問題,提齣瞭一種基于遺傳算法(GA)改進的SMOTE方法——GASMOTE.首先,為少數類的不同樣本設置不同的採樣倍率,併將這些採樣倍率取值的組閤編碼為種群中的箇體;然後,循環使用GA的選擇、交扠、變異等算子對種群進行優化,在達到停機條件時穫得採樣倍率取值的最優組閤;最後,根據找到的最優組閤對非平衡數據集進行SMOTE採樣.在10箇典型的非平衡數據集上進行的實驗結果錶明:與SMOTE算法相比,GASMOTE在F-measure值上提高瞭5.9箇百分點,在G-mean值上提高瞭1.6箇百分點;與Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高瞭3.7箇百分點,在G-mean值上提高瞭2.3箇百分點.該方法可作為一種新的解決非平衡數據集分類問題的過採樣技術.
침대소수류양본합성과채양기술(SMOTE)재처리비평형수거집분류문제시,위소수류적불동양본설치상동적채양배솔,존재일정적맹목성적문제,제출료일충기우유전산법(GA)개진적SMOTE방법——GASMOTE.수선,위소수류적불동양본설치불동적채양배솔,병장저사채양배솔취치적조합편마위충군중적개체;연후,순배사용GA적선택、교차、변이등산자대충군진행우화,재체도정궤조건시획득채양배솔취치적최우조합;최후,근거조도적최우조합대비평형수거집진행SMOTE채양.재10개전형적비평형수거집상진행적실험결과표명:여SMOTE산법상비,GASMOTE재F-measure치상제고료5.9개백분점,재G-mean치상제고료1.6개백분점;여Borderline-SMOTE산법상비,GASMOTE재F-measure치상제고료3.7개백분점,재G-mean치상제고료2.3개백분점.해방법가작위일충신적해결비평형수거집분류문제적과채양기술.