电脑知识与技术
電腦知識與技術
전뇌지식여기술
COMPUTER KNOWLEDGE AND TECHNOLOGY
2013年
34期
7770-7775,7781
,共7页
数据流%半监督学习%集成分类%概念漂移%混合集成
數據流%半鑑督學習%集成分類%概唸漂移%混閤集成
수거류%반감독학습%집성분류%개념표이%혼합집성
data stream%semi-supervised learning%ensemble classification%concept drifting%mixture ensemble
当前已有的数据流分类模型都需要大量已标记样本来进行训练,但在实际应用中,对大量样本标记的成本相对较高。针对此问题,提出了一种基于半监督学习的数据流混合集成分类算法SMEClass,选用混合模式来组织基础分类器,用K个决策树分类器投票表决为未标记数据添加标记,以提高数据类标的置信度,增强集成分类器的准确度,同时加入一个贝叶斯分类器来有效减少标记过程中产生的噪音数据。实验结果显示,SMEClass算法与最新基于半监督学习的集成分类算法相比,其准确率有所提高,在运行时间和抗噪能力方面有明显优势。
噹前已有的數據流分類模型都需要大量已標記樣本來進行訓練,但在實際應用中,對大量樣本標記的成本相對較高。針對此問題,提齣瞭一種基于半鑑督學習的數據流混閤集成分類算法SMEClass,選用混閤模式來組織基礎分類器,用K箇決策樹分類器投票錶決為未標記數據添加標記,以提高數據類標的置信度,增彊集成分類器的準確度,同時加入一箇貝葉斯分類器來有效減少標記過程中產生的譟音數據。實驗結果顯示,SMEClass算法與最新基于半鑑督學習的集成分類算法相比,其準確率有所提高,在運行時間和抗譟能力方麵有明顯優勢。
당전이유적수거류분류모형도수요대량이표기양본래진행훈련,단재실제응용중,대대량양본표기적성본상대교고。침대차문제,제출료일충기우반감독학습적수거류혼합집성분류산법SMEClass,선용혼합모식래조직기출분류기,용K개결책수분류기투표표결위미표기수거첨가표기,이제고수거류표적치신도,증강집성분류기적준학도,동시가입일개패협사분류기래유효감소표기과정중산생적조음수거。실험결과현시,SMEClass산법여최신기우반감독학습적집성분류산법상비,기준학솔유소제고,재운행시간화항조능력방면유명현우세。
The existing data stream classification algorithms require a large number of labeled data samples for training.But in prac-tical applications,the cost of labeling vast data is quite high.As for this problem, this paper proposed a data stream mixture ensem-ble classification algorithm based on semi-supervised learning-SMEClass that uses mixed mode to organize the base classifier. Firstly,using K C4.5 classifiers label the unlabeled data with the majority vote , which improves the label confidence of data and enhances the accuracy of ensemble classifier.What’s more,algorithm joins a Na?ve Bayes classifier to effectively reduce the noise in the process of labeling data.The experimental results showed that the accuracy of SMEClass algorithm is high compared with the latest semi-supervised ensemble classification algorithm.Especially,the SMEClass algorithm have obvious superiority in run-ning time and anti-noise ability.