计算机学报
計算機學報
계산궤학보
CHINESE JOURNAL OF COMPUTERS
2012年
2期
202-209
,共8页
李雄飞%李军%董元方%屈成伟
李雄飛%李軍%董元方%屈成偉
리웅비%리군%동원방%굴성위
数据挖掘%不平衡数据%集成学习%提升%扰动
數據挖掘%不平衡數據%集成學習%提升%擾動
수거알굴%불평형수거%집성학습%제승%우동
现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不平衡数据分类算法-PCBoost.算法以信息增益率为分裂准则构建决策树,作为弱分类器.在每次迭代初始,利用数据合成方法添加合成的少数类样例,平衡训练信息;在子分类器形成后,修正“扰动”,删除未被正确分类的合成样例.文中讨论了数据合成方法,给出了训练误差界的理论分析,并分析了集成学习参数的选择.实验结果表明,PCBoost算法具有处理不平衡数据分类问题的优势.
現實世界中廣汎存在不平衡數據,其分類問題是機器學習研究中的一箇熱點.多數傳統分類算法假定類分佈平衡或誤分類代價均衡,在處理不平衡數據時,效果不夠理想.文中提齣一種不平衡數據分類算法-PCBoost.算法以信息增益率為分裂準則構建決策樹,作為弱分類器.在每次迭代初始,利用數據閤成方法添加閤成的少數類樣例,平衡訓練信息;在子分類器形成後,脩正“擾動”,刪除未被正確分類的閤成樣例.文中討論瞭數據閤成方法,給齣瞭訓練誤差界的理論分析,併分析瞭集成學習參數的選擇.實驗結果錶明,PCBoost算法具有處理不平衡數據分類問題的優勢.
현실세계중엄범존재불평형수거,기분류문제시궤기학습연구중적일개열점.다수전통분류산법가정류분포평형혹오분류대개균형,재처리불평형수거시,효과불구이상.문중제출일충불평형수거분류산법-PCBoost.산법이신식증익솔위분렬준칙구건결책수,작위약분류기.재매차질대초시,이용수거합성방법첨가합성적소수류양례,평형훈련신식;재자분류기형성후,수정“우동”,산제미피정학분류적합성양례.문중토론료수거합성방법,급출료훈련오차계적이론분석,병분석료집성학습삼수적선택.실험결과표명,PCBoost산법구유처리불평형수거분류문제적우세.