计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2014年
4期
707-720
,共14页
应文豪%许敏%王士同%邓赵红
應文豪%許敏%王士同%鄧趙紅
응문호%허민%왕사동%산조홍
核密度估计%最小包含球%同步%压缩集密度估计%聚类
覈密度估計%最小包含毬%同步%壓縮集密度估計%聚類
핵밀도고계%최소포함구%동보%압축집밀도고계%취류
kernel density estimation%minimal enclosing ball%synchronization%reduced set density estimator%clustering
现有的同步聚类方法Sync在同步过程中需要将样本中的每一个分量看作相位振子进行计算,具有较高的时间复杂度,因此在大规模数据集上聚类时具有相当大的局限性.为了解决这一问题,提出了快速自适应同步聚类方法(fast adaptive KDE-based clustering by synchronization,FAKCS).FAKCS首先引入基于压缩集密度估计和中心约束最小包含球技术的快速压缩方法对大规模数据集进行压缩,然后通过使用Davies-Bouldin指标,在压缩集上进行ε参数自适应的同步聚类,并采用新定义的序列参量来评价局部同步的程度.另外,研究了序列参量和核密度估计间的联系,从理论上揭示了样本点的局部同步在概率密度意义下的本质.FAKCS可以在大规模数据集上得到任意形状、个数、密度的聚类而无需预设聚类数目,在图像分割和大规模UCI数据集上的实验验证了FAKCS的有效性.
現有的同步聚類方法Sync在同步過程中需要將樣本中的每一箇分量看作相位振子進行計算,具有較高的時間複雜度,因此在大規模數據集上聚類時具有相噹大的跼限性.為瞭解決這一問題,提齣瞭快速自適應同步聚類方法(fast adaptive KDE-based clustering by synchronization,FAKCS).FAKCS首先引入基于壓縮集密度估計和中心約束最小包含毬技術的快速壓縮方法對大規模數據集進行壓縮,然後通過使用Davies-Bouldin指標,在壓縮集上進行ε參數自適應的同步聚類,併採用新定義的序列參量來評價跼部同步的程度.另外,研究瞭序列參量和覈密度估計間的聯繫,從理論上揭示瞭樣本點的跼部同步在概率密度意義下的本質.FAKCS可以在大規模數據集上得到任意形狀、箇數、密度的聚類而無需預設聚類數目,在圖像分割和大規模UCI數據集上的實驗驗證瞭FAKCS的有效性.
현유적동보취류방법Sync재동보과정중수요장양본중적매일개분량간작상위진자진행계산,구유교고적시간복잡도,인차재대규모수거집상취류시구유상당대적국한성.위료해결저일문제,제출료쾌속자괄응동보취류방법(fast adaptive KDE-based clustering by synchronization,FAKCS).FAKCS수선인입기우압축집밀도고계화중심약속최소포함구기술적쾌속압축방법대대규모수거집진행압축,연후통과사용Davies-Bouldin지표,재압축집상진행ε삼수자괄응적동보취류,병채용신정의적서렬삼량래평개국부동보적정도.령외,연구료서렬삼량화핵밀도고계간적련계,종이론상게시료양본점적국부동보재개솔밀도의의하적본질.FAKCS가이재대규모수거집상득도임의형상、개수、밀도적취류이무수예설취류수목,재도상분할화대규모UCI수거집상적실험험증료FAKCS적유효성.