电子与信息学报
電子與信息學報
전자여신식학보
JOURNAL OF ELECTRONICS & INFORMATION TECHNOLOGY
2015年
2期
386-393
,共8页
刘家辰%苗启广%曹莹%宋建锋%权义宁
劉傢辰%苗啟廣%曹瑩%宋建鋒%權義寧
류가신%묘계엄%조형%송건봉%권의저
机器学习%单类分类%集成单类分类%分类器多样性%集成修剪%集成学习
機器學習%單類分類%集成單類分類%分類器多樣性%集成脩剪%集成學習
궤기학습%단류분류%집성단류분류%분류기다양성%집성수전%집성학습
Machine learning%One-class classifier%Ensemble One-class Classifier (EOC)%Classifier diversity%Ensemble pruning%Ensemble learning
针对传统集成学习方法直接应用于单类分类器效果不理想的问题,该文首先证明了集成学习方法能够提升单类分类器的性能,同时证明了若基分类器集不经选择会导致集成后性能下降;接着指出了经典集成方法直接应用于单类分类器集成时存在基分类器多样性严重不足的问题,并提出了一种能够提高多样性的基单类分类器混合生成策略;最后从集成损失构成的角度拆分集成单类分类器的损失函数,针对性地构造了集成单类分类器修剪策略并提出一种基于混合多样性生成和修剪的单类分类器集成算法,简称为PHD-EOC。在UCI标准数据集和恶意程序行为检测数据集上的实验结果表明,PHD-EOC算法兼顾多样性与单类分类性能,在各种单类分类器评价指标上均较经典集成学习方法有更好的表现,并降低了决策阶段的时间复杂度。
針對傳統集成學習方法直接應用于單類分類器效果不理想的問題,該文首先證明瞭集成學習方法能夠提升單類分類器的性能,同時證明瞭若基分類器集不經選擇會導緻集成後性能下降;接著指齣瞭經典集成方法直接應用于單類分類器集成時存在基分類器多樣性嚴重不足的問題,併提齣瞭一種能夠提高多樣性的基單類分類器混閤生成策略;最後從集成損失構成的角度拆分集成單類分類器的損失函數,針對性地構造瞭集成單類分類器脩剪策略併提齣一種基于混閤多樣性生成和脩剪的單類分類器集成算法,簡稱為PHD-EOC。在UCI標準數據集和噁意程序行為檢測數據集上的實驗結果錶明,PHD-EOC算法兼顧多樣性與單類分類性能,在各種單類分類器評價指標上均較經典集成學習方法有更好的錶現,併降低瞭決策階段的時間複雜度。
침대전통집성학습방법직접응용우단류분류기효과불이상적문제,해문수선증명료집성학습방법능구제승단류분류기적성능,동시증명료약기분류기집불경선택회도치집성후성능하강;접착지출료경전집성방법직접응용우단류분류기집성시존재기분류기다양성엄중불족적문제,병제출료일충능구제고다양성적기단류분류기혼합생성책략;최후종집성손실구성적각도탁분집성단류분류기적손실함수,침대성지구조료집성단류분류기수전책략병제출일충기우혼합다양성생성화수전적단류분류기집성산법,간칭위PHD-EOC。재UCI표준수거집화악의정서행위검측수거집상적실험결과표명,PHD-EOC산법겸고다양성여단류분류성능,재각충단류분류기평개지표상균교경전집성학습방법유경호적표현,병강저료결책계단적시간복잡도。
Combining one-class classifiers using the classical ensemble methods is not satisfactory. To address this problem, this paper first proves that though one-class classification performance can be improved by a classifier ensemble, it can also degrade if the set of base classifiers are not selected carefully. On this basis, this study further analyzes that the lacking of diversity heavily accounts for performance degradation. Therefore, a hybrid method for generating diverse base classifiers is proposed. Secondly, in the combining phase, to find the most useful diversity, the one-class ensemble loss is split and analyzed theoretically to propose a diversity based pruning method. Finally, by combining these two steps, a novel ensemble one-class classifier named Pruned Hybrid Diverse Ensemble One-class Classifier (PHD-EOC) is proposed. The experimental results on the UCI datasets and a malicious software detection dataset show that the PHD-EOC strikes a better balance between the diverse base classifiers and classification performance. It also outperforms other classical ensemble methods for a faster decision speed.