计算机科学与探索
計算機科學與探索
계산궤과학여탐색
JOURNAL OF FRONTIERS OF COMPUTER SCIENCE & TECHNOLOGY
2014年
9期
1113-1119
,共7页
二次学习%集成学习%类别不平衡学习%数据挖掘
二次學習%集成學習%類彆不平衡學習%數據挖掘
이차학습%집성학습%유별불평형학습%수거알굴
twice learning%ensemble learning%class imbalance learning%data mining
CCDM 2014数据挖掘竞赛基于医学诊断数据,提出了实际生活中广泛出现的多类标问题和多类分类问题。针对两个问题出现的类别不平衡现象以及训练样本较少等特点,为了更好地完成数据挖掘任务,借助二次学习和集成学习的思想,提出了一个新的学习框架--二次集成学习。该学习框架通过首次集成学习得到若干置信度较高的样本,将其加入到原始训练集,并在新的训练集上进行二次学习,进而得到泛化性能更高的分类器。竞赛结果表明,与常用的集成学习相比,二次集成学习在两个问题上均取得了非常理想的结果。
CCDM 2014數據挖掘競賽基于醫學診斷數據,提齣瞭實際生活中廣汎齣現的多類標問題和多類分類問題。針對兩箇問題齣現的類彆不平衡現象以及訓練樣本較少等特點,為瞭更好地完成數據挖掘任務,藉助二次學習和集成學習的思想,提齣瞭一箇新的學習框架--二次集成學習。該學習框架通過首次集成學習得到若榦置信度較高的樣本,將其加入到原始訓練集,併在新的訓練集上進行二次學習,進而得到汎化性能更高的分類器。競賽結果錶明,與常用的集成學習相比,二次集成學習在兩箇問題上均取得瞭非常理想的結果。
CCDM 2014수거알굴경새기우의학진단수거,제출료실제생활중엄범출현적다류표문제화다류분류문제。침대량개문제출현적유별불평형현상이급훈련양본교소등특점,위료경호지완성수거알굴임무,차조이차학습화집성학습적사상,제출료일개신적학습광가--이차집성학습。해학습광가통과수차집성학습득도약간치신도교고적양본,장기가입도원시훈련집,병재신적훈련집상진행이차학습,진이득도범화성능경고적분류기。경새결과표명,여상용적집성학습상비,이차집성학습재량개문제상균취득료비상이상적결과。
This CCDM 2014 Data Mining Competition focused on the medical diagnosis datasets. It proposed two popular problems in real world, i.e., multi-label problem and multi-class classification problem. In order to solve these data mining tasks much better, aiming at the problems of class imbalance and less training instances, this paper proposes a new learning framework, i.e., the twice ensemble learning framework, to tackle these difficulties. This new frame-work can get some instances with higher confidence, and inputs them into the original training dataset. Finally, it can obtain classifiers with higher generalization capability. The results of this competition show that the twice ensemble learning framework can get very ideal performance on these two problems.