软件学报
軟件學報
연건학보
JOURNAL OF SOFTWARE
2011年
11期
2760-2772
,共13页
公茂果%王爽%马萌%曹宇%焦李成%马文萍
公茂果%王爽%馬萌%曹宇%焦李成%馬文萍
공무과%왕상%마맹%조우%초리성%마문평
数据挖掘%聚类K-均值算法%进化算法%流形
數據挖掘%聚類K-均值算法%進化算法%流形
수거알굴%취류K-균치산법%진화산법%류형
提出了一种用于复杂分布数据的二阶段聚类算法(two-phase clustering,简称TPC),TPC包含两个阶段:首先将数据划分为若干个球形分布的子类,每一个子类用其聚类中心代表该类内的所有样本;然后利用可以处理复杂分布教据的流形进化聚类(manifold evolutionary clustering,简称MEC)对第1阶段得到的聚类中心进行类别划分;最后综合两次聚类结果整理得到最终聚类结果.该算法基于改进的K-均值算法和MEC算法.在进化聚类算法的基础上引入流形距离,使得算法能够胜任复杂分布的数据聚类问题.同时,算法降低了引入流形距离所带来的计算量.在分布各异的7个人工数据集和7个UCI数据集测试了二阶段聚类算法,并将其效果与遗传聚类算法、K均值算法和流形进化聚类算法做了比较.实验结果表明,无论对于简单或复杂、凸或非凸的数据,TPC都表现出良好的聚类性能,并且计算时间与MEC相比明显减少.
提齣瞭一種用于複雜分佈數據的二階段聚類算法(two-phase clustering,簡稱TPC),TPC包含兩箇階段:首先將數據劃分為若榦箇毬形分佈的子類,每一箇子類用其聚類中心代錶該類內的所有樣本;然後利用可以處理複雜分佈教據的流形進化聚類(manifold evolutionary clustering,簡稱MEC)對第1階段得到的聚類中心進行類彆劃分;最後綜閤兩次聚類結果整理得到最終聚類結果.該算法基于改進的K-均值算法和MEC算法.在進化聚類算法的基礎上引入流形距離,使得算法能夠勝任複雜分佈的數據聚類問題.同時,算法降低瞭引入流形距離所帶來的計算量.在分佈各異的7箇人工數據集和7箇UCI數據集測試瞭二階段聚類算法,併將其效果與遺傳聚類算法、K均值算法和流形進化聚類算法做瞭比較.實驗結果錶明,無論對于簡單或複雜、凸或非凸的數據,TPC都錶現齣良好的聚類性能,併且計算時間與MEC相比明顯減少.
제출료일충용우복잡분포수거적이계단취류산법(two-phase clustering,간칭TPC),TPC포함량개계단:수선장수거화분위약간개구형분포적자류,매일개자류용기취류중심대표해류내적소유양본;연후이용가이처리복잡분포교거적류형진화취류(manifold evolutionary clustering,간칭MEC)대제1계단득도적취류중심진행유별화분;최후종합량차취류결과정리득도최종취류결과.해산법기우개진적K-균치산법화MEC산법.재진화취류산법적기출상인입류형거리,사득산법능구성임복잡분포적수거취류문제.동시,산법강저료인입류형거리소대래적계산량.재분포각이적7개인공수거집화7개UCI수거집측시료이계단취류산법,병장기효과여유전취류산법、K균치산법화류형진화취류산법주료비교.실험결과표명,무론대우간단혹복잡、철혹비철적수거,TPC도표현출량호적취류성능,병차계산시간여MEC상비명현감소.