计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2015年
8期
128-133
,共6页
孙浩军%闪光辉%高玉龙%袁婷
孫浩軍%閃光輝%高玉龍%袁婷
손호군%섬광휘%고옥룡%원정
聚类%混合型数据%相似度计算%层次聚类
聚類%混閤型數據%相似度計算%層次聚類
취류%혼합형수거%상사도계산%층차취류
clustering%mixed data%similarity measure%hierarchical clustering
在许多应用中,很多数据集都具有数值型和分类型数据的混合特征,k-prototype是针对这类数据聚类的经典方法之一,该方法是一种基于k-means和k-mode的聚类方法。在研究了现有的混合属性数据聚类方法之后,引入了一种新算法用于混合型数据聚类,不仅改进了prototype的选取方法,而且提出了一种新的针对混合型数据的相似度度量方式,基于此又提出了一种不同于k-prototype的数据到prototype的分配方式,采用类似层次聚类中凝聚聚类的思想进行聚类,通过在四个真实的混合型数据集上测试发现:与传统算法相比,算法提高了聚类的精度和稳定性。
在許多應用中,很多數據集都具有數值型和分類型數據的混閤特徵,k-prototype是針對這類數據聚類的經典方法之一,該方法是一種基于k-means和k-mode的聚類方法。在研究瞭現有的混閤屬性數據聚類方法之後,引入瞭一種新算法用于混閤型數據聚類,不僅改進瞭prototype的選取方法,而且提齣瞭一種新的針對混閤型數據的相似度度量方式,基于此又提齣瞭一種不同于k-prototype的數據到prototype的分配方式,採用類似層次聚類中凝聚聚類的思想進行聚類,通過在四箇真實的混閤型數據集上測試髮現:與傳統算法相比,算法提高瞭聚類的精度和穩定性。
재허다응용중,흔다수거집도구유수치형화분류형수거적혼합특정,k-prototype시침대저류수거취류적경전방법지일,해방법시일충기우k-means화k-mode적취류방법。재연구료현유적혼합속성수거취류방법지후,인입료일충신산법용우혼합형수거취류,불부개진료prototype적선취방법,이차제출료일충신적침대혼합형수거적상사도도량방식,기우차우제출료일충불동우k-prototype적수거도prototype적분배방식,채용유사층차취류중응취취류적사상진행취류,통과재사개진실적혼합형수거집상측시발현:여전통산법상비,산법제고료취류적정도화은정성。
In many applications, many datasets have the features of both numeric and categorical data, the k-prototype is one of the most important algorithms designed for clustering this type data. Based on the studying of the existing cluster-ing algorithms for mixed data, it proposes a new algorithm for the clustering of mixed data, not only modifies the method of the searching of prototypes, but also designs a new measurement of similarity to measure the similarity between data objects. It also proposes a new method that different from k-prototype to allocate data to prototype. It uses the idea similar to the agglomerate clustering in hierarchical clustering to clustering, after the testing on four real mixed datasets it is found that compared with other algorithms, the proposed algorithm not only can improve the accuracy of clustering, but also has the very high stability.