计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2011年
8期
2708-2711,2763
,共5页
刘力雄%郭云飞%康晶%马宏
劉力雄%郭雲飛%康晶%馬宏
류력웅%곽운비%강정%마굉
分布式数据流%聚类%基于密度%基于模型%数据挖掘
分佈式數據流%聚類%基于密度%基于模型%數據挖掘
분포식수거류%취류%기우밀도%기우모형%수거알굴
针对分布式数据流中数据有交叠、不完整的情况和聚类需要较低通信代价的要求,提出了密度和模型聚类思想相结合的分布式数据流聚类算法DAM-Distream.该算法利用混合高斯模型描述数据流的分布概况,可以有效压缩数据量并能较好的反映分布数据流间的交叠性.由于获得模型参数的EM算法对初值敏感,应用Hoeffding界理论和基于密度的算法对数据流进行初聚类,得到比较准确的初始参数,最后采用合并近似模型策略获得全局模型.仿真实验结果表明,DAM-Distream能有效克服EM算法的缺点,获得的模型参数性能更优,在降低系统的通信代价的同时能提高分布式环境下数据流的聚类质量.
針對分佈式數據流中數據有交疊、不完整的情況和聚類需要較低通信代價的要求,提齣瞭密度和模型聚類思想相結閤的分佈式數據流聚類算法DAM-Distream.該算法利用混閤高斯模型描述數據流的分佈概況,可以有效壓縮數據量併能較好的反映分佈數據流間的交疊性.由于穫得模型參數的EM算法對初值敏感,應用Hoeffding界理論和基于密度的算法對數據流進行初聚類,得到比較準確的初始參數,最後採用閤併近似模型策略穫得全跼模型.倣真實驗結果錶明,DAM-Distream能有效剋服EM算法的缺點,穫得的模型參數性能更優,在降低繫統的通信代價的同時能提高分佈式環境下數據流的聚類質量.
침대분포식수거류중수거유교첩、불완정적정황화취류수요교저통신대개적요구,제출료밀도화모형취류사상상결합적분포식수거류취류산법DAM-Distream.해산법이용혼합고사모형묘술수거류적분포개황,가이유효압축수거량병능교호적반영분포수거류간적교첩성.유우획득모형삼수적EM산법대초치민감,응용Hoeffding계이론화기우밀도적산법대수거류진행초취류,득도비교준학적초시삼수,최후채용합병근사모형책략획득전국모형.방진실험결과표명,DAM-Distream능유효극복EM산법적결점,획득적모형삼수성능경우,재강저계통적통신대개적동시능제고분포식배경하수거류적취류질량.