计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2013年
10期
226-230
,共5页
数据流%混合属性%聚类%二重k近邻
數據流%混閤屬性%聚類%二重k近鄰
수거류%혼합속성%취류%이중k근린
Data stream%Heterogeneous%Clustering%Double k-nearest neighbors
现有的数据流聚类算法大都只能处理单一数值属性的数据,不能应对同时包含数值属性与分类属性特征的数据,且已存在的混合属性数据流聚类算法在对数据的标准化处理和聚类上还有很大的改进之处,为此,提出二重k近邻混合属性数据流聚类算法.该算法采用CluStream算法的在线、离线框架,并提出了混合属性数据流下三步聚类的思想.算法先运用二重k近邻和改进的维度距离生成微聚类,然后利用动态标准化数据方法和基于均值的余弦模型生成初始宏聚类,最后利用基于均值的余弦模型和先验聚类结果进行宏聚类优化.实验结果表明,所提出的算法具有良好的聚类质量及可扩展性.
現有的數據流聚類算法大都隻能處理單一數值屬性的數據,不能應對同時包含數值屬性與分類屬性特徵的數據,且已存在的混閤屬性數據流聚類算法在對數據的標準化處理和聚類上還有很大的改進之處,為此,提齣二重k近鄰混閤屬性數據流聚類算法.該算法採用CluStream算法的在線、離線框架,併提齣瞭混閤屬性數據流下三步聚類的思想.算法先運用二重k近鄰和改進的維度距離生成微聚類,然後利用動態標準化數據方法和基于均值的餘絃模型生成初始宏聚類,最後利用基于均值的餘絃模型和先驗聚類結果進行宏聚類優化.實驗結果錶明,所提齣的算法具有良好的聚類質量及可擴展性.
현유적수거류취류산법대도지능처리단일수치속성적수거,불능응대동시포함수치속성여분류속성특정적수거,차이존재적혼합속성수거류취류산법재대수거적표준화처리화취류상환유흔대적개진지처,위차,제출이중k근린혼합속성수거류취류산법.해산법채용CluStream산법적재선、리선광가,병제출료혼합속성수거류하삼보취류적사상.산법선운용이중k근린화개진적유도거리생성미취류,연후이용동태표준화수거방법화기우균치적여현모형생성초시굉취류,최후이용기우균치적여현모형화선험취류결과진행굉취류우화.실험결과표명,소제출적산법구유량호적취류질량급가확전성.