软件学报
軟件學報
연건학보
JOURNAL OF SOFTWARE
2013年
5期
1132-1147
,共16页
方育柯%傅彦%周俊临%佘莉%孙崇敬
方育柯%傅彥%週俊臨%佘莉%孫崇敬
방육가%부언%주준림%사리%손숭경
集成学习%选择性集成%软间隔%相关度%线性规划
集成學習%選擇性集成%軟間隔%相關度%線性規劃
집성학습%선택성집성%연간격%상관도%선성규화
boosting learning%selective boost%soft margin%correlation%linear programming
当前,boosting 集成学习算法研究主要集中于最大化弱学习器凸组合的间隔或软间隔,该凸组合几乎使用了生成的所有弱学习器,然而这些弱学习器间存在大量的相关性和冗余,增加了训练和分类过程的时空复杂度.针对这一问题,在LPBoost基础上提出了一种选择性boosting集成学习算法,称为SelectedBoost.在每次迭代生成新的弱学习器以后,通过计算新生成的弱学习器与已有弱学习器的相关度和差异度,并结合当前集成的强学习器的准确率来判断是否选择该弱学习器.另外,当前的一系列boosting算法(如AdaBoost,LPBoost,ERLPBoost等),本质上是基于已生成的1个或者多个弱学习器来更新样本权重,但与弱学习器相比,强学习器更能代表当前的决策面.因此, SelectedBoost 通过在带约束的间隔最大化问题中引入更加严格的强学习器边界约束条件,使得该算法不仅参考弱学习器边界,同时还参考已生成的强学习器来更新样本权重,进而提高算法的收敛速度.最后,与其他有代表性的集成学习算法进行实验比较,结果表明,该方法在收敛率、分类准确性以及泛化能力等方面均具有比较明显的优势.
噹前,boosting 集成學習算法研究主要集中于最大化弱學習器凸組閤的間隔或軟間隔,該凸組閤幾乎使用瞭生成的所有弱學習器,然而這些弱學習器間存在大量的相關性和冗餘,增加瞭訓練和分類過程的時空複雜度.針對這一問題,在LPBoost基礎上提齣瞭一種選擇性boosting集成學習算法,稱為SelectedBoost.在每次迭代生成新的弱學習器以後,通過計算新生成的弱學習器與已有弱學習器的相關度和差異度,併結閤噹前集成的彊學習器的準確率來判斷是否選擇該弱學習器.另外,噹前的一繫列boosting算法(如AdaBoost,LPBoost,ERLPBoost等),本質上是基于已生成的1箇或者多箇弱學習器來更新樣本權重,但與弱學習器相比,彊學習器更能代錶噹前的決策麵.因此, SelectedBoost 通過在帶約束的間隔最大化問題中引入更加嚴格的彊學習器邊界約束條件,使得該算法不僅參攷弱學習器邊界,同時還參攷已生成的彊學習器來更新樣本權重,進而提高算法的收斂速度.最後,與其他有代錶性的集成學習算法進行實驗比較,結果錶明,該方法在收斂率、分類準確性以及汎化能力等方麵均具有比較明顯的優勢.
당전,boosting 집성학습산법연구주요집중우최대화약학습기철조합적간격혹연간격,해철조합궤호사용료생성적소유약학습기,연이저사약학습기간존재대량적상관성화용여,증가료훈련화분류과정적시공복잡도.침대저일문제,재LPBoost기출상제출료일충선택성boosting집성학습산법,칭위SelectedBoost.재매차질대생성신적약학습기이후,통과계산신생성적약학습기여이유약학습기적상관도화차이도,병결합당전집성적강학습기적준학솔래판단시부선택해약학습기.령외,당전적일계렬boosting산법(여AdaBoost,LPBoost,ERLPBoost등),본질상시기우이생성적1개혹자다개약학습기래경신양본권중,단여약학습기상비,강학습기경능대표당전적결책면.인차, SelectedBoost 통과재대약속적간격최대화문제중인입경가엄격적강학습기변계약속조건,사득해산법불부삼고약학습기변계,동시환삼고이생성적강학습기래경신양본권중,진이제고산법적수렴속도.최후,여기타유대표성적집성학습산법진행실험비교,결과표명,해방법재수렴솔、분류준학성이급범화능력등방면균구유비교명현적우세.
Research of traditional boosting algorithms mainly focuses on maximizing the hard or soft margin of the convex combination among weak hypotheses. The weak learners are often all used in the combination, even though some of them are more, or less related. This increases the time complexity of the hypotheses’ training and test. To ease the redundancies of the base hypotheses, this paper presents a selective boosting algorithm called SelectedBoost for classifying binary labeled samples, which is based on LPBoost. The main idea of the algorithm is to discard as many hypotheses as possible according to their relevance and diversity. Furthermore, this paper introduces an edge constraint for every strong hypothesis to speed up the convergence when maximizing the soft margin of the combination of the weak hypotheses. The experimental results show that this algorithm can achieve both better performance and less generalization error compared to some representative boosting algorithms.