计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2015年
4期
1143-1147
,共5页
Hadoop%C4.5%不确定概率%嘈杂数据%并行化
Hadoop%C4.5%不確定概率%嘈雜數據%併行化
Hadoop%C4.5%불학정개솔%조잡수거%병행화
Hadoop%C4.5%imprecise probability%noisy data%parallelization
针对当前决策树算法较少考虑训练集的嘈杂程度对模型的影响,以及传统驻留内存算法处理海量数据困难的问题,提出一种基于Hadoop平台的不确定概率C4.5算法——IP-C4.5算法.在训练模型时,IP-C4.5算法认为用于建树的训练集是不可靠的,通过用基于不确定概率的信息增益率作为分裂属性选择标准,减小了训练集的嘈杂性对模型的影响.在Hadoop平台下,通过将IP-C4.5算法以文件分裂的方式进行MapReduce化程序设计,增强了处理海量数据的能力.与C4.5和完全信条树(CCDT)算法的对比实验结果表明,在训练集数据是嘈杂的情况下,IP-C4.5算法的准确率相对更高,尤其当数据嘈杂度大于10%时,表现更加优秀;并且基于Hadoop的并行化的IP-C4.5算法具有处理海量数据的能力.
針對噹前決策樹算法較少攷慮訓練集的嘈雜程度對模型的影響,以及傳統駐留內存算法處理海量數據睏難的問題,提齣一種基于Hadoop平檯的不確定概率C4.5算法——IP-C4.5算法.在訓練模型時,IP-C4.5算法認為用于建樹的訓練集是不可靠的,通過用基于不確定概率的信息增益率作為分裂屬性選擇標準,減小瞭訓練集的嘈雜性對模型的影響.在Hadoop平檯下,通過將IP-C4.5算法以文件分裂的方式進行MapReduce化程序設計,增彊瞭處理海量數據的能力.與C4.5和完全信條樹(CCDT)算法的對比實驗結果錶明,在訓練集數據是嘈雜的情況下,IP-C4.5算法的準確率相對更高,尤其噹數據嘈雜度大于10%時,錶現更加優秀;併且基于Hadoop的併行化的IP-C4.5算法具有處理海量數據的能力.
침대당전결책수산법교소고필훈련집적조잡정도대모형적영향,이급전통주류내존산법처리해량수거곤난적문제,제출일충기우Hadoop평태적불학정개솔C4.5산법——IP-C4.5산법.재훈련모형시,IP-C4.5산법인위용우건수적훈련집시불가고적,통과용기우불학정개솔적신식증익솔작위분렬속성선택표준,감소료훈련집적조잡성대모형적영향.재Hadoop평태하,통과장IP-C4.5산법이문건분렬적방식진행MapReduce화정서설계,증강료처리해량수거적능력.여C4.5화완전신조수(CCDT)산법적대비실험결과표명,재훈련집수거시조잡적정황하,IP-C4.5산법적준학솔상대경고,우기당수거조잡도대우10%시,표현경가우수;병차기우Hadoop적병행화적IP-C4.5산법구유처리해량수거적능력.