计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2014年
10期
30-33
,共4页
尹成祥%张宏军%张睿%綦秀利%王彬
尹成祥%張宏軍%張睿%綦秀利%王彬
윤성상%장굉군%장예%기수리%왕빈
K-Means算法%分段%聚类指数%紧密度%显著度
K-Means算法%分段%聚類指數%緊密度%顯著度
K-Means산법%분단%취류지수%긴밀도%현저도
K-Means algorithm%segmentation%clustering-index%density%significance
针对典型K-Means算法随机选取初始中心点导致的算法迭代次数过多的问题,采取数据分段方法,将数据点根据距离分成k段,在每段内选取一个中心作为初始中心点,进行迭代运算;为寻找最优的聚类数目k,定义了新的聚类有效性函数-聚类指数,包含聚类紧密度和聚类显著度两个指标,通过最优化聚类指数,在[1, n ]内寻找最优的k值。在IRIS数据集进行的仿真实验结果表明,算法的迭代次数明显减少,寻找的最优k值接近数据集的真实情况,算法有效性得到了验证。
針對典型K-Means算法隨機選取初始中心點導緻的算法迭代次數過多的問題,採取數據分段方法,將數據點根據距離分成k段,在每段內選取一箇中心作為初始中心點,進行迭代運算;為尋找最優的聚類數目k,定義瞭新的聚類有效性函數-聚類指數,包含聚類緊密度和聚類顯著度兩箇指標,通過最優化聚類指數,在[1, n ]內尋找最優的k值。在IRIS數據集進行的倣真實驗結果錶明,算法的迭代次數明顯減少,尋找的最優k值接近數據集的真實情況,算法有效性得到瞭驗證。
침대전형K-Means산법수궤선취초시중심점도치적산법질대차수과다적문제,채취수거분단방법,장수거점근거거리분성k단,재매단내선취일개중심작위초시중심점,진행질대운산;위심조최우적취류수목k,정의료신적취류유효성함수-취류지수,포함취류긴밀도화취류현저도량개지표,통과최우화취류지수,재[1, n ]내심조최우적k치。재IRIS수거집진행적방진실험결과표명,산법적질대차수명현감소,심조적최우k치접근수거집적진실정황,산법유효성득도료험증。
Aiming at the problemsof too much iterative times in selecting initial centroids stochastically for K-Means algorithm,a method is proposed to optimize the initial centroids through cutting the set into k segmentations and select one point in each segmentation as initial centroids for iterative computing. A new valid function called clustering-index is defined as the sum of clustering-density and clustering-significance and can be used to search the optimization of k in the internal of [1, n ]. The simulation experiment with IRIS data set shows that the proposed algorithm converges faster and the value k found is close to the actual value,which proves the validity of the al-gorithm.