西安交通大学学报
西安交通大學學報
서안교통대학학보
JOURNAL OF XI'AN JIAOTONG UNIVERSITY
2011年
9期
1-5
,共5页
统计量%连续属性%离散化
統計量%連續屬性%離散化
통계량%련속속성%리산화
为了减少连续属性离散化后有用信息的丢失和信息系统总的断点数量,提出了一种具有全局聚类效果的多属性离散化算法.算法根据各属性预插入断点对信息系统近似分类质量的影响,来确定要插入断点的属性,从全局属性范围选择最佳断点.根据Ameva统计量来判断属性中最佳断点的位置,并以保证决策表的近似分类质量作为算法的终止条件.实验采用多组机器学习数据对算法的性能进行了检验,并与几种经典算法做了对比.实验结果表明,用新的离散化算法获得的结果所建的C45决策树分类模型,具有较好的分类精度和较少的节点数量.
為瞭減少連續屬性離散化後有用信息的丟失和信息繫統總的斷點數量,提齣瞭一種具有全跼聚類效果的多屬性離散化算法.算法根據各屬性預插入斷點對信息繫統近似分類質量的影響,來確定要插入斷點的屬性,從全跼屬性範圍選擇最佳斷點.根據Ameva統計量來判斷屬性中最佳斷點的位置,併以保證決策錶的近似分類質量作為算法的終止條件.實驗採用多組機器學習數據對算法的性能進行瞭檢驗,併與幾種經典算法做瞭對比.實驗結果錶明,用新的離散化算法穫得的結果所建的C45決策樹分類模型,具有較好的分類精度和較少的節點數量.
위료감소련속속성리산화후유용신식적주실화신식계통총적단점수량,제출료일충구유전국취류효과적다속성리산화산법.산법근거각속성예삽입단점대신식계통근사분류질량적영향,래학정요삽입단점적속성,종전국속성범위선택최가단점.근거Ameva통계량래판단속성중최가단점적위치,병이보증결책표적근사분류질량작위산법적종지조건.실험채용다조궤기학습수거대산법적성능진행료검험,병여궤충경전산법주료대비.실험결과표명,용신적리산화산법획득적결과소건적C45결책수분류모형,구유교호적분류정도화교소적절점수량.