计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2005年
21期
186-188,205
,共4页
机器学习%决策树%噪声
機器學習%決策樹%譟聲
궤기학습%결책수%조성
在现实数据集中不可避免地存在噪声,如何检测并去除噪声是数据挖掘中的一项重要研究内容.本文提出了一种基于增益的得分算法来检测噪声.为了检验该算法的有效性,以决策树为工具.在产生决策树之前,先用该算法去除训练集中的噪声,以免噪声导致决策树过大和过度拟合.对12个UCI数据集利用该算法去噪,再用C4.5生成决策树,实验结果表明,与不去噪时生成的决策树相比,改善了分类精度,且树尺寸明显减小.
在現實數據集中不可避免地存在譟聲,如何檢測併去除譟聲是數據挖掘中的一項重要研究內容.本文提齣瞭一種基于增益的得分算法來檢測譟聲.為瞭檢驗該算法的有效性,以決策樹為工具.在產生決策樹之前,先用該算法去除訓練集中的譟聲,以免譟聲導緻決策樹過大和過度擬閤.對12箇UCI數據集利用該算法去譟,再用C4.5生成決策樹,實驗結果錶明,與不去譟時生成的決策樹相比,改善瞭分類精度,且樹呎吋明顯減小.
재현실수거집중불가피면지존재조성,여하검측병거제조성시수거알굴중적일항중요연구내용.본문제출료일충기우증익적득분산법래검측조성.위료검험해산법적유효성,이결책수위공구.재산생결책수지전,선용해산법거제훈련집중적조성,이면조성도치결책수과대화과도의합.대12개UCI수거집이용해산법거조,재용C4.5생성결책수,실험결과표명,여불거조시생성적결책수상비,개선료분류정도,차수척촌명현감소.