广西师范大学学报(自然科学版)
廣西師範大學學報(自然科學版)
엄서사범대학학보(자연과학판)
JOURNAL OF GUANGXI NORMAL UNIVERSITY(NATURAL SCIENCE EDITION)
2013年
4期
33-40
,共8页
石亚冰%黄予%覃晓%元昌安
石亞冰%黃予%覃曉%元昌安
석아빙%황여%담효%원창안
聚类%初始种子%启发式搜索%K-Means算法
聚類%初始種子%啟髮式搜索%K-Means算法
취류%초시충자%계발식수색%K-Means산법
clustering%initial seeds%heuristic searching%K-Means algorithm
作为典型的启发式聚类算法,K-Means受到初始模型的影响而存在两个缺陷:算法对初始模型非常敏感和聚类效果差强人意.若给K-Means一个能够反映数据分布特征的初始种子集,这些种子既处于数据密集区域,又尽可能相互之间远离,这样一个初始模型对于提高启发式算法性能具有重要意义.本文据此给出距离密度混合选择(HYDD)种子优化方案的基本思路:对数据集进行密度排序,在此基础上选取密度大且满足距离大于密度直径的数据作为候选初始种子集,在候选初始种子集上,利用点点之间距离从大到小选取K个所需的种子,最后利用该初始种子集引导K-Means算法来搜索聚类结果.在5组仿真数据集和3组真实数据集上的实验结果表明,HYDD K-Means算法能够稳定的获取具备高内聚、高分离这一优良特征的聚类簇.
作為典型的啟髮式聚類算法,K-Means受到初始模型的影響而存在兩箇缺陷:算法對初始模型非常敏感和聚類效果差彊人意.若給K-Means一箇能夠反映數據分佈特徵的初始種子集,這些種子既處于數據密集區域,又儘可能相互之間遠離,這樣一箇初始模型對于提高啟髮式算法性能具有重要意義.本文據此給齣距離密度混閤選擇(HYDD)種子優化方案的基本思路:對數據集進行密度排序,在此基礎上選取密度大且滿足距離大于密度直徑的數據作為候選初始種子集,在候選初始種子集上,利用點點之間距離從大到小選取K箇所需的種子,最後利用該初始種子集引導K-Means算法來搜索聚類結果.在5組倣真數據集和3組真實數據集上的實驗結果錶明,HYDD K-Means算法能夠穩定的穫取具備高內聚、高分離這一優良特徵的聚類簇.
작위전형적계발식취류산법,K-Means수도초시모형적영향이존재량개결함:산법대초시모형비상민감화취류효과차강인의.약급K-Means일개능구반영수거분포특정적초시충자집,저사충자기처우수거밀집구역,우진가능상호지간원리,저양일개초시모형대우제고계발식산법성능구유중요의의.본문거차급출거리밀도혼합선택(HYDD)충자우화방안적기본사로:대수거집진행밀도배서,재차기출상선취밀도대차만족거리대우밀도직경적수거작위후선초시충자집,재후선초시충자집상,이용점점지간거리종대도소선취K개소수적충자,최후이용해초시충자집인도K-Means산법래수색취류결과.재5조방진수거집화3조진실수거집상적실험결과표명,HYDD K-Means산법능구은정적획취구비고내취、고분리저일우량특정적취류족.