华东师范大学学报(自然科学版)
華東師範大學學報(自然科學版)
화동사범대학학보(자연과학판)
JOURNAL OF EAST CHINA NORMAL UNIVERSITY(NATURAL SCIENCE)
2014年
6期
73-80,89
,共9页
K-means%聚类数%自适应
K-means%聚類數%自適應
K-means%취류수%자괄응
K-means%clustering number%self-adaptation
聚类数直接关系到聚类算法的聚类质量,但在K-means等经典聚类算法中,对于聚类数的确定目前尚无合适的理论,一般凭经验或试凑指定.这样不仅需要较多的人机交互和耗费较多的试算开销,并且由于最优聚类数常常难以获得,而影响聚类结果的精度.本文提出一种自适应逼近最佳聚类数的算法ADNC(adaptively determining the number of clusters),可以通过自适应方法逼近最优聚类数.逼近是一个反复迭代聚类的过程.每迭代一次,对输出的聚类评估分类空间各图像特征值(输入向量各分量)标准差的平均误差,并构成多特征综合误差;根据梯度下降原理调整聚类数,即在使多特征综合误差逐步减小的同时,逼近最优聚类数.这个最优聚类数一般出现在多特征综合误差开始震荡之前最邻近的位置.以这个聚类数做K-means聚类,可以使同类间特征值异质性降到最小,取得理想的聚类结果.与此同时,还提出了较不适宜聚类数的概念,即可能使聚类误差最大的聚类数.实验表明,最适宜和较不适宜的聚类数两个概念对于改善聚类精度都有实践意义.
聚類數直接關繫到聚類算法的聚類質量,但在K-means等經典聚類算法中,對于聚類數的確定目前尚無閤適的理論,一般憑經驗或試湊指定.這樣不僅需要較多的人機交互和耗費較多的試算開銷,併且由于最優聚類數常常難以穫得,而影響聚類結果的精度.本文提齣一種自適應逼近最佳聚類數的算法ADNC(adaptively determining the number of clusters),可以通過自適應方法逼近最優聚類數.逼近是一箇反複迭代聚類的過程.每迭代一次,對輸齣的聚類評估分類空間各圖像特徵值(輸入嚮量各分量)標準差的平均誤差,併構成多特徵綜閤誤差;根據梯度下降原理調整聚類數,即在使多特徵綜閤誤差逐步減小的同時,逼近最優聚類數.這箇最優聚類數一般齣現在多特徵綜閤誤差開始震盪之前最鄰近的位置.以這箇聚類數做K-means聚類,可以使同類間特徵值異質性降到最小,取得理想的聚類結果.與此同時,還提齣瞭較不適宜聚類數的概唸,即可能使聚類誤差最大的聚類數.實驗錶明,最適宜和較不適宜的聚類數兩箇概唸對于改善聚類精度都有實踐意義.
취류수직접관계도취류산법적취류질량,단재K-means등경전취류산법중,대우취류수적학정목전상무합괄적이론,일반빙경험혹시주지정.저양불부수요교다적인궤교호화모비교다적시산개소,병차유우최우취류수상상난이획득,이영향취류결과적정도.본문제출일충자괄응핍근최가취류수적산법ADNC(adaptively determining the number of clusters),가이통과자괄응방법핍근최우취류수.핍근시일개반복질대취류적과정.매질대일차,대수출적취류평고분류공간각도상특정치(수입향량각분량)표준차적평균오차,병구성다특정종합오차;근거제도하강원리조정취류수,즉재사다특정종합오차축보감소적동시,핍근최우취류수.저개최우취류수일반출현재다특정종합오차개시진탕지전최린근적위치.이저개취류수주K-means취류,가이사동류간특정치이질성강도최소,취득이상적취류결과.여차동시,환제출료교불괄의취류수적개념,즉가능사취류오차최대적취류수.실험표명,최괄의화교불괄의적취류수량개개념대우개선취류정도도유실천의의.