计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2015年
5期
930-936
,共7页
不平衡数据%SMOTE%K-Means%投票%集成学习
不平衡數據%SMOTE%K-Means%投票%集成學習
불평형수거%SMOTE%K-Means%투표%집성학습
unbalanced dataset%SMOTE%K-Means%vote%ensemble learning
对软件缺陷预测的不平衡问题进行了研究,提出了一种处理不平衡数据的采样方法,用来解决分类器因为样本集中的样本类别不平衡而造成分类器性能下降的问题.为了避免随机采样的盲目性,利用启发性的混合采样方法来平衡数据,针对少数类采用SMOTE过采样,对多数类采用K-Means聚类降采样,然后综合利用多个单分类器来进行投票集成预测分类.实验结果表明,混合采样与集成学习相结合的软件缺陷预测方法具有较好的分类效果,在获得较高的查全率的同时还能显著降低误报率.
對軟件缺陷預測的不平衡問題進行瞭研究,提齣瞭一種處理不平衡數據的採樣方法,用來解決分類器因為樣本集中的樣本類彆不平衡而造成分類器性能下降的問題.為瞭避免隨機採樣的盲目性,利用啟髮性的混閤採樣方法來平衡數據,針對少數類採用SMOTE過採樣,對多數類採用K-Means聚類降採樣,然後綜閤利用多箇單分類器來進行投票集成預測分類.實驗結果錶明,混閤採樣與集成學習相結閤的軟件缺陷預測方法具有較好的分類效果,在穫得較高的查全率的同時還能顯著降低誤報率.
대연건결함예측적불평형문제진행료연구,제출료일충처리불평형수거적채양방법,용래해결분류기인위양본집중적양본유별불평형이조성분류기성능하강적문제.위료피면수궤채양적맹목성,이용계발성적혼합채양방법래평형수거,침대소수류채용SMOTE과채양,대다수류채용K-Means취류강채양,연후종합이용다개단분류기래진행투표집성예측분류.실험결과표명,혼합채양여집성학습상결합적연건결함예측방법구유교호적분류효과,재획득교고적사전솔적동시환능현저강저오보솔.