计算机系统应用
計算機繫統應用
계산궤계통응용
APPLICATIONS OF THE COMPUTER SYSTEMS
2015年
6期
168-172
,共5页
聚类%分布式质心%混合型数据%新差异测度%属性重要性
聚類%分佈式質心%混閤型數據%新差異測度%屬性重要性
취류%분포식질심%혼합형수거%신차이측도%속성중요성
clustering%distribution centroid%mixed data%new dissimilarity measure%attribute significance
在现实世界中经常遇到混合数值属性和分类属性的数据, k-prototypes是聚类该类型数据的主要算法之一。针对现有混合属性聚类算法的不足,提出一种基于分布式质心和新差异测度的改进的 k-prototypes 算法。在新算法中,首先引入分布式质心来表示簇中的分类属性的簇中心,然后结合均值和分布式质心来表示混合属性的簇中心,并提出一种新的差异测度来计算数据对象与簇中心的距离,新差异测度考虑了不同属性在聚类过程中的重要性。在三个真实数据集上的仿真实验表明,与传统的聚类算法相比,本文算法的聚类精度要优于传统的聚类算法,从而验证了本文算法的有效性。
在現實世界中經常遇到混閤數值屬性和分類屬性的數據, k-prototypes是聚類該類型數據的主要算法之一。針對現有混閤屬性聚類算法的不足,提齣一種基于分佈式質心和新差異測度的改進的 k-prototypes 算法。在新算法中,首先引入分佈式質心來錶示簇中的分類屬性的簇中心,然後結閤均值和分佈式質心來錶示混閤屬性的簇中心,併提齣一種新的差異測度來計算數據對象與簇中心的距離,新差異測度攷慮瞭不同屬性在聚類過程中的重要性。在三箇真實數據集上的倣真實驗錶明,與傳統的聚類算法相比,本文算法的聚類精度要優于傳統的聚類算法,從而驗證瞭本文算法的有效性。
재현실세계중경상우도혼합수치속성화분류속성적수거, k-prototypes시취류해류형수거적주요산법지일。침대현유혼합속성취류산법적불족,제출일충기우분포식질심화신차이측도적개진적 k-prototypes 산법。재신산법중,수선인입분포식질심래표시족중적분류속성적족중심,연후결합균치화분포식질심래표시혼합속성적족중심,병제출일충신적차이측도래계산수거대상여족중심적거리,신차이측도고필료불동속성재취류과정중적중요성。재삼개진실수거집상적방진실험표명,여전통적취류산법상비,본문산법적취류정도요우우전통적취류산법,종이험증료본문산법적유효성。
Data objects with mixed numeric and categorical attributes are commonly encountered in real world. The k-prototypes algorithm is one of the principals for clustering this type of data objects. An improved k-prototypes algorithm is proposed to cluster mixed data in this paper. In our method, the concept of the distribution centroid is introduced for representing the prototype of categorical attributes in a cluster. Then we combine both mean with distribution centroid to represent the prototype of the cluster with mixed attributes, and thus propose a new measure to calculate the dissimilarity between data objects and prototypes of clusters. This measure takes into account the significance of different attributes towards the clustering process. Finally, we present out algorithm for clustering mixed data, and the performance of our method is demonstrated by a series of experiments on three real-world datasets in comparison with that of traditional clustering algorithm.