西安交通大学学报
西安交通大學學報
서안교통대학학보
JOURNAL OF XI'AN JIAOTONG UNIVERSITY
2014年
10期
108-114
,共7页
李长路%王劲林%郭志川%潘梁
李長路%王勁林%郭誌川%潘樑
리장로%왕경림%곽지천%반량
数据挖掘%子空间聚类%网格聚类%高维数据
數據挖掘%子空間聚類%網格聚類%高維數據
수거알굴%자공간취류%망격취류%고유수거
data mining%subspace clustering%grid-based clustering%high-dimensional data
针对网格聚类方法在高维子空间聚类中网格规模随着维度急剧升高的问题,以及差别阈值方法引入干扰小聚簇的问题,提出一种具有两个网格划分阶段的密度意识子空间聚类模型.该模型第一阶段采用粗网格找出可能存在聚类的子空间区域,第二阶段在这些区域中进行等效精度更高的网格划分并找出所有致密单元.该模型在两个阶段处理的网格规模均远低于密度意识子空间聚类模型在相同划分精度下的网格规模,同时利用第一阶段对网格空间的筛选作用降低小聚簇干扰,提高聚类质量.合成数据集实验表明:该模型聚类精准率和查全率性能明显优于原模型;基于真实数据集实验,相比一次划分模型,该模型以损失0.4%数据点的代价提高输出聚类密度19.4%,聚类质量大幅提升.
針對網格聚類方法在高維子空間聚類中網格規模隨著維度急劇升高的問題,以及差彆閾值方法引入榦擾小聚簇的問題,提齣一種具有兩箇網格劃分階段的密度意識子空間聚類模型.該模型第一階段採用粗網格找齣可能存在聚類的子空間區域,第二階段在這些區域中進行等效精度更高的網格劃分併找齣所有緻密單元.該模型在兩箇階段處理的網格規模均遠低于密度意識子空間聚類模型在相同劃分精度下的網格規模,同時利用第一階段對網格空間的篩選作用降低小聚簇榦擾,提高聚類質量.閤成數據集實驗錶明:該模型聚類精準率和查全率性能明顯優于原模型;基于真實數據集實驗,相比一次劃分模型,該模型以損失0.4%數據點的代價提高輸齣聚類密度19.4%,聚類質量大幅提升.
침대망격취류방법재고유자공간취류중망격규모수착유도급극승고적문제,이급차별역치방법인입간우소취족적문제,제출일충구유량개망격화분계단적밀도의식자공간취류모형.해모형제일계단채용조망격조출가능존재취류적자공간구역,제이계단재저사구역중진행등효정도경고적망격화분병조출소유치밀단원.해모형재량개계단처리적망격규모균원저우밀도의식자공간취류모형재상동화분정도하적망격규모,동시이용제일계단대망격공간적사선작용강저소취족간우,제고취류질량.합성수거집실험표명:해모형취류정준솔화사전솔성능명현우우원모형;기우진실수거집실험,상비일차화분모형,해모형이손실0.4%수거점적대개제고수출취류밀도19.4%,취류질량대폭제승.