办公自动化(综合版)
辦公自動化(綜閤版)
판공자동화(종합판)
Office Automation
2014年
9期
45-49
,共5页
王塑%张萍%周新%王乙民
王塑%張萍%週新%王乙民
왕소%장평%주신%왕을민
数据挖掘%分类算法%训练样本%Margin曲线
數據挖掘%分類算法%訓練樣本%Margin麯線
수거알굴%분류산법%훈련양본%Margin곡선
Data mining%Classification%Algorithm%Margin curve
采用交叉验证方法针对C4.5、Bayesian置信网络、序贯最小优化(SMO)三种主流数据挖掘分类算法对中国烟草年鉴2011-2012中的销售数据进行了实验分析,分别得出了在相同训练、测试样本数据下三种算法建立模型所需时间、分类准确性、覆盖率及Margin曲线。分析了训练样本数量对三种算法的不同影响,为使用者在不同的样本质量下选择相应的分类算法提供理论和实验依据。
採用交扠驗證方法針對C4.5、Bayesian置信網絡、序貫最小優化(SMO)三種主流數據挖掘分類算法對中國煙草年鑒2011-2012中的銷售數據進行瞭實驗分析,分彆得齣瞭在相同訓練、測試樣本數據下三種算法建立模型所需時間、分類準確性、覆蓋率及Margin麯線。分析瞭訓練樣本數量對三種算法的不同影響,為使用者在不同的樣本質量下選擇相應的分類算法提供理論和實驗依據。
채용교차험증방법침대C4.5、Bayesian치신망락、서관최소우화(SMO)삼충주류수거알굴분류산법대중국연초년감2011-2012중적소수수거진행료실험분석,분별득출료재상동훈련、측시양본수거하삼충산법건립모형소수시간、분류준학성、복개솔급Margin곡선。분석료훈련양본수량대삼충산법적불동영향,위사용자재불동적양본질량하선택상응적분류산법제공이론화실험의거。
Using the cross validation method for C4.5,Bayesian belief network,sequential minimal optimization (SMO)of three kinds of common data mining algorithms are analyzed on the China tobacco almanac 2011-2012 sales data. Under the same training sample data set and the same testing sample data set,we have obtained the time required for algorithm modeling,classification accuracy,coverage and margin curve in terms of three kinds of algorithm. Analysis of the number of training samples of different effects of three kinds of algorithms,and provide theoretical and experimen-tal basis for users to choose the corresponding classification algorithm in different sample quality.