计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2014年
4期
731-742
,共12页
概念漂移%数据流%分类%主动学习%半监督学习
概唸漂移%數據流%分類%主動學習%半鑑督學習
개념표이%수거류%분류%주동학습%반감독학습
concept drift%data stream%classification%active learning%semi-supervised learning
由于在信用卡欺诈分析等领域的广泛应用,学者们开始关注概念漂移数据流分类问题.现有算法通常假设数据一旦分类后类标已知,利用所有待分类实例的真实类别来检测数据流是否发生概念漂移以及调整分类模型.然而,由于标记实例需要耗费大量的时间和精力,该解决方案在实际应用中无法实现.据此,提出一种基于KNNModel和增量贝叶斯的概念漂移检测算法KnnM-IB.新算法在具有KNNModel算法分类被模型簇覆盖的实例分类精度高、速度快优点的同时,利用增量贝叶斯算法对难处理样本进行分类,从而保证了分类效果.算法同时利用可变滑动窗口大小的变化以及主动学习标记的少量样本进行概念漂移检测.当数据流稳定时,半监督学习被用于扩大标记实例的数量以对模型进行更新,因而更符合实际应用的要求.实验结果表明,该方法能够在对数据流进行有效分类的同时检测数据流概念漂移及相应地更新模型.
由于在信用卡欺詐分析等領域的廣汎應用,學者們開始關註概唸漂移數據流分類問題.現有算法通常假設數據一旦分類後類標已知,利用所有待分類實例的真實類彆來檢測數據流是否髮生概唸漂移以及調整分類模型.然而,由于標記實例需要耗費大量的時間和精力,該解決方案在實際應用中無法實現.據此,提齣一種基于KNNModel和增量貝葉斯的概唸漂移檢測算法KnnM-IB.新算法在具有KNNModel算法分類被模型簇覆蓋的實例分類精度高、速度快優點的同時,利用增量貝葉斯算法對難處理樣本進行分類,從而保證瞭分類效果.算法同時利用可變滑動窗口大小的變化以及主動學習標記的少量樣本進行概唸漂移檢測.噹數據流穩定時,半鑑督學習被用于擴大標記實例的數量以對模型進行更新,因而更符閤實際應用的要求.實驗結果錶明,該方法能夠在對數據流進行有效分類的同時檢測數據流概唸漂移及相應地更新模型.
유우재신용잡기사분석등영역적엄범응용,학자문개시관주개념표이수거류분류문제.현유산법통상가설수거일단분류후류표이지,이용소유대분류실례적진실유별래검측수거류시부발생개념표이이급조정분류모형.연이,유우표기실례수요모비대량적시간화정력,해해결방안재실제응용중무법실현.거차,제출일충기우KNNModel화증량패협사적개념표이검측산법KnnM-IB.신산법재구유KNNModel산법분류피모형족복개적실례분류정도고、속도쾌우점적동시,이용증량패협사산법대난처리양본진행분류,종이보증료분류효과.산법동시이용가변활동창구대소적변화이급주동학습표기적소량양본진행개념표이검측.당수거류은정시,반감독학습피용우확대표기실례적수량이대모형진행경신,인이경부합실제응용적요구.실험결과표명,해방법능구재대수거류진행유효분류적동시검측수거류개념표이급상응지경신모형.