计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2014年
5期
227-229,234
,共4页
大数据%决策树%分类算法%流数据
大數據%決策樹%分類算法%流數據
대수거%결책수%분류산법%류수거
Big data%Decision tree%Classification algorithm%Data streaming
传统的分类算法在对模型进行训练之前,需要得到整个训练数据集.然而在大数据环境下,数据以数据流的形式源源不断地流向系统,因此不可能预先获得整个训练数据集.研究了大数据环境下含有噪音的流数据的在线分类问题.将流数据的在线分类描述成一个优化问题,提出了一种加权的Naive Bayes分类器和一种误差敏感的(ErrorAdaptive)分类器,并通过真实的数据集对提出的算法进行了验证.实验结果表明,文中提出的误差敏感的分类器算法在系统没有噪音的情况下分类预测的准确性要优于相关的算法;此外,当流数据中含有噪音时,误差敏感的分类器算法对噪音不敏感,仍然具有很好的预测准确性,因此可以应用于大数据环境下流数据的在线分类预测.
傳統的分類算法在對模型進行訓練之前,需要得到整箇訓練數據集.然而在大數據環境下,數據以數據流的形式源源不斷地流嚮繫統,因此不可能預先穫得整箇訓練數據集.研究瞭大數據環境下含有譟音的流數據的在線分類問題.將流數據的在線分類描述成一箇優化問題,提齣瞭一種加權的Naive Bayes分類器和一種誤差敏感的(ErrorAdaptive)分類器,併通過真實的數據集對提齣的算法進行瞭驗證.實驗結果錶明,文中提齣的誤差敏感的分類器算法在繫統沒有譟音的情況下分類預測的準確性要優于相關的算法;此外,噹流數據中含有譟音時,誤差敏感的分類器算法對譟音不敏感,仍然具有很好的預測準確性,因此可以應用于大數據環境下流數據的在線分類預測.
전통적분류산법재대모형진행훈련지전,수요득도정개훈련수거집.연이재대수거배경하,수거이수거류적형식원원불단지류향계통,인차불가능예선획득정개훈련수거집.연구료대수거배경하함유조음적류수거적재선분류문제.장류수거적재선분류묘술성일개우화문제,제출료일충가권적Naive Bayes분류기화일충오차민감적(ErrorAdaptive)분류기,병통과진실적수거집대제출적산법진행료험증.실험결과표명,문중제출적오차민감적분류기산법재계통몰유조음적정황하분류예측적준학성요우우상관적산법;차외,당류수거중함유조음시,오차민감적분류기산법대조음불민감,잉연구유흔호적예측준학성,인차가이응용우대수거배경하류수거적재선분류예측.