汕头大学学报(自然科学版)
汕頭大學學報(自然科學版)
산두대학학보(자연과학판)
JOURNAL OF SHANTOU UNIVERSITY (NATURAL SCIENCE EDITION)
2013年
4期
58-65
,共8页
孙浩军%高玉龙%闪光辉%袁婷
孫浩軍%高玉龍%閃光輝%袁婷
손호군%고옥룡%섬광휘%원정
K-prototypes%特殊性%混合数据%信息熵%有效的
K-prototypes%特殊性%混閤數據%信息熵%有效的
K-prototypes%특수성%혼합수거%신식적%유효적
K-prototypes%particularity%mixed data%entropy%effective
K-prototypes算法是处理混合数据的主要聚类算法,大部分针对混合型数据的聚类算法都是选择数据集中的一部分数据作为聚类对象,而忽略了这类数据的特殊性与整体性,为了改进了数据的距离衡量,文中提出了一种新的聚类方法,该方法采用信息熵作为属性的权值,进行高精度和更加稳定的聚类,最后通过Matlab编程实现,采用uci数据集中credit等数据集进行仿真实验,证明改进算法是正确和有效的。
K-prototypes算法是處理混閤數據的主要聚類算法,大部分針對混閤型數據的聚類算法都是選擇數據集中的一部分數據作為聚類對象,而忽略瞭這類數據的特殊性與整體性,為瞭改進瞭數據的距離衡量,文中提齣瞭一種新的聚類方法,該方法採用信息熵作為屬性的權值,進行高精度和更加穩定的聚類,最後通過Matlab編程實現,採用uci數據集中credit等數據集進行倣真實驗,證明改進算法是正確和有效的。
K-prototypes산법시처리혼합수거적주요취류산법,대부분침대혼합형수거적취류산법도시선택수거집중적일부분수거작위취류대상,이홀략료저류수거적특수성여정체성,위료개진료수거적거리형량,문중제출료일충신적취류방법,해방법채용신식적작위속성적권치,진행고정도화경가은정적취류,최후통과Matlab편정실현,채용uci수거집중credit등수거집진행방진실험,증명개진산법시정학화유효적。
K-Prototypes algorithm is the main clustering algorithm for processing mixed data. Since most clustering algorithms for mixed data choose parts of the data set as clustering objects, and ignore the particularity and globality of the data, a new data distance measure is improved in this paper. A new clustering method is proposed using the entropy as the attribute weights for more accurate and more stable clustering. Finally, uci data set in Matlab is used and the algorithm is proved correct and effective.