计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2005年
10期
159-161
,共3页
可能近似正确模型%PAC%训练集%错误率
可能近似正確模型%PAC%訓練集%錯誤率
가능근사정학모형%PAC%훈련집%착오솔
数据挖掘算法必须在实际数据集上进行验证,而数据集容量是有限的,训练集比例过低会导致训练不足,训练集比例过高会导致算法评价过于乐观.针对训练集容量对评价效果的影响问题,对25个UCI数据集的不同比例训练集运用决策树算法C4.5,得出不同训练集容量对决策树分类错误率的影响关系.实验结果表明,训练集比例至少为50%时才能使分类错误率达到相对平稳.
數據挖掘算法必鬚在實際數據集上進行驗證,而數據集容量是有限的,訓練集比例過低會導緻訓練不足,訓練集比例過高會導緻算法評價過于樂觀.針對訓練集容量對評價效果的影響問題,對25箇UCI數據集的不同比例訓練集運用決策樹算法C4.5,得齣不同訓練集容量對決策樹分類錯誤率的影響關繫.實驗結果錶明,訓練集比例至少為50%時纔能使分類錯誤率達到相對平穩.
수거알굴산법필수재실제수거집상진행험증,이수거집용량시유한적,훈련집비례과저회도치훈련불족,훈련집비례과고회도치산법평개과우악관.침대훈련집용량대평개효과적영향문제,대25개UCI수거집적불동비례훈련집운용결책수산법C4.5,득출불동훈련집용량대결책수분류착오솔적영향관계.실험결과표명,훈련집비례지소위50%시재능사분류착오솔체도상대평은.