计算机科学与探索
計算機科學與探索
계산궤과학여탐색
JOURNAL OF FRONTIERS OF COMPUTER SCIENCE & TECHNOLOGY
2010年
9期
859-864
,共6页
高维数据流%子空间聚类%数据流流量%自适应
高維數據流%子空間聚類%數據流流量%自適應
고유수거류%자공간취류%수거류류량%자괄응
高维数据流聚类是数据挖掘领域中的研究热点.由于数据流具有数据量大、快速变化、高维性等特点,许多聚类算法不能取得较好的聚类质量.提出了高维数据流的自适应子空间聚类算法SAStream.该算法改进了.HPStream中的微簇结构并定义了候选簇,只在相应的子空间内计算新来数据点到候选簇质心的距离,减少了聚类时被检查微簇的数目,将形成的微簇存储在金字塔时间框架中,使用时间衰减函数删除过期的微簇;当数据流量大时,根据监测的系统资源使用情况自动调整界限半径和簇选择因子,从而调节聚类的粒度.实验结果表明,该算法具有良好的聚类质量和快速的数据处理能力.
高維數據流聚類是數據挖掘領域中的研究熱點.由于數據流具有數據量大、快速變化、高維性等特點,許多聚類算法不能取得較好的聚類質量.提齣瞭高維數據流的自適應子空間聚類算法SAStream.該算法改進瞭.HPStream中的微簇結構併定義瞭候選簇,隻在相應的子空間內計算新來數據點到候選簇質心的距離,減少瞭聚類時被檢查微簇的數目,將形成的微簇存儲在金字塔時間框架中,使用時間衰減函數刪除過期的微簇;噹數據流量大時,根據鑑測的繫統資源使用情況自動調整界限半徑和簇選擇因子,從而調節聚類的粒度.實驗結果錶明,該算法具有良好的聚類質量和快速的數據處理能力.
고유수거류취류시수거알굴영역중적연구열점.유우수거류구유수거량대、쾌속변화、고유성등특점,허다취류산법불능취득교호적취류질량.제출료고유수거류적자괄응자공간취류산법SAStream.해산법개진료.HPStream중적미족결구병정의료후선족,지재상응적자공간내계산신래수거점도후선족질심적거리,감소료취류시피검사미족적수목,장형성적미족존저재금자탑시간광가중,사용시간쇠감함수산제과기적미족;당수거류량대시,근거감측적계통자원사용정황자동조정계한반경화족선택인자,종이조절취류적립도.실험결과표명,해산법구유량호적취류질량화쾌속적수거처리능력.