计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2006年
z3期
359-365
,共7页
姜力争%杨冬青%唐世渭%马秀莉%张德辉
薑力爭%楊鼕青%唐世渭%馬秀莉%張德輝
강력쟁%양동청%당세위%마수리%장덕휘
数据挖掘%聚类%数据立方体%切片%相关分析
數據挖掘%聚類%數據立方體%切片%相關分析
수거알굴%취류%수거립방체%절편%상관분석
对立方体数据的分析挖掘由于具有广泛的现实应用而日益得到人们的重视.基于对立方体切片数据的分析应用问题,提出了一种新的核心聚类分析方法.核心聚类分析主要针对传统聚类模型得到的结果类簇不够紧密和需要预先定义类簇的数目等不足之处,而点对敏感聚类模型(pair-wise cluster)算法复杂度是NP难的问题而设计.核心聚类模型将数据集合中的点划分为若干不相交的核心点集和边界点集,同一核心点集内任意点对的相似度大于阈值σ,而不同核心点集的点对相似度小于阈值σ.核心聚类模型挖掘出的核心点集是紧密类簇,并且具备良好的分类性质.由于采用了局部优化算法,核心聚类模型的算法复杂度为O(n2),较点对敏感的最大相关成员簇聚类模型大大降低.同时,可以通过核心点集和边界点集构造最大相关成员簇的上界,这就在一定程度上保证了核心聚类模型结果的完备性.实验和分析对比说明核心聚类模型具有较高的算法效率,可扩展性强,结果表示合理,能够很好地解决现实应用问题.
對立方體數據的分析挖掘由于具有廣汎的現實應用而日益得到人們的重視.基于對立方體切片數據的分析應用問題,提齣瞭一種新的覈心聚類分析方法.覈心聚類分析主要針對傳統聚類模型得到的結果類簇不夠緊密和需要預先定義類簇的數目等不足之處,而點對敏感聚類模型(pair-wise cluster)算法複雜度是NP難的問題而設計.覈心聚類模型將數據集閤中的點劃分為若榦不相交的覈心點集和邊界點集,同一覈心點集內任意點對的相似度大于閾值σ,而不同覈心點集的點對相似度小于閾值σ.覈心聚類模型挖掘齣的覈心點集是緊密類簇,併且具備良好的分類性質.由于採用瞭跼部優化算法,覈心聚類模型的算法複雜度為O(n2),較點對敏感的最大相關成員簇聚類模型大大降低.同時,可以通過覈心點集和邊界點集構造最大相關成員簇的上界,這就在一定程度上保證瞭覈心聚類模型結果的完備性.實驗和分析對比說明覈心聚類模型具有較高的算法效率,可擴展性彊,結果錶示閤理,能夠很好地解決現實應用問題.
대립방체수거적분석알굴유우구유엄범적현실응용이일익득도인문적중시.기우대립방체절편수거적분석응용문제,제출료일충신적핵심취류분석방법.핵심취류분석주요침대전통취류모형득도적결과류족불구긴밀화수요예선정의류족적수목등불족지처,이점대민감취류모형(pair-wise cluster)산법복잡도시NP난적문제이설계.핵심취류모형장수거집합중적점화분위약간불상교적핵심점집화변계점집,동일핵심점집내임의점대적상사도대우역치σ,이불동핵심점집적점대상사도소우역치σ.핵심취류모형알굴출적핵심점집시긴밀류족,병차구비량호적분류성질.유우채용료국부우화산법,핵심취류모형적산법복잡도위O(n2),교점대민감적최대상관성원족취류모형대대강저.동시,가이통과핵심점집화변계점집구조최대상관성원족적상계,저취재일정정도상보증료핵심취류모형결과적완비성.실험화분석대비설명핵심취류모형구유교고적산법효솔,가확전성강,결과표시합리,능구흔호지해결현실응용문제.