河北大学学报(自然科学版)
河北大學學報(自然科學版)
하북대학학보(자연과학판)
JOURNAL OF HEBEI UNIVERSITY(NATURAL SCIENCE EDITION)
2010年
2期
211-215
,共5页
王春才%杨华民%张彩虹%郭威%韩贵东
王春纔%楊華民%張綵虹%郭威%韓貴東
왕춘재%양화민%장채홍%곽위%한귀동
聚类%数据仓库%增量聚类%CURE
聚類%數據倉庫%增量聚類%CURE
취류%수거창고%증량취류%CURE
clustering%data warehouse%incremental clustering%CURE
聚类分析要求较高聚类质量和快速响应能力,各行业数据仓库中的大量、高维数据对算法的效率提出了更大的挑战.CURE算法能够提供高质量聚类结果但不满足联机聚类要求.结合数据仓库数据不定期批量、增量更新的特点,提出了一种新的增量式CURE聚类算法--InCURE,利用对象的互连性和近似度,保持原算法的动态聚类特性的同时大大缩短聚类时间.5维、20维、50维的大量数据实际测试表明无论低维还是高维数据,InCURE都比CURE具有更高的效率,适合数据仓库环境下的增量式聚类分析.
聚類分析要求較高聚類質量和快速響應能力,各行業數據倉庫中的大量、高維數據對算法的效率提齣瞭更大的挑戰.CURE算法能夠提供高質量聚類結果但不滿足聯機聚類要求.結閤數據倉庫數據不定期批量、增量更新的特點,提齣瞭一種新的增量式CURE聚類算法--InCURE,利用對象的互連性和近似度,保持原算法的動態聚類特性的同時大大縮短聚類時間.5維、20維、50維的大量數據實際測試錶明無論低維還是高維數據,InCURE都比CURE具有更高的效率,適閤數據倉庫環境下的增量式聚類分析.
취류분석요구교고취류질량화쾌속향응능력,각행업수거창고중적대량、고유수거대산법적효솔제출료경대적도전.CURE산법능구제공고질량취류결과단불만족련궤취류요구.결합수거창고수거불정기비량、증량경신적특점,제출료일충신적증량식CURE취류산법--InCURE,이용대상적호련성화근사도,보지원산법적동태취류특성적동시대대축단취류시간.5유、20유、50유적대량수거실제측시표명무론저유환시고유수거,InCURE도비CURE구유경고적효솔,괄합수거창고배경하적증량식취류분석.
Data warehouse is a challenging field of application for data mining tasks such as clustering. Clustering online requires good result and fast-response ability at the same time. The CURE algorithm can get high-quality clusters but efficiency is relatively low. In this paper, a novel incremental CURE algorithm-InCURE is proposed, after investigating CURE and updates mode of data warehouse. CURE keeps nicely the dynamic clustering characteristic of the original algorithm, while shortens the clustering time consumedly by using the historical clustering results and dealing with added items separately. Performance evaluation of InCURE based on multidimensional data demonstrates that it is well applicable for incremental clustering in data warehouse.