计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2013年
11期
3057-3061
,共5页
离群点%聚类%索引%分布式%优化策略%剪枝规则
離群點%聚類%索引%分佈式%優化策略%剪枝規則
리군점%취류%색인%분포식%우화책략%전지규칙
outlier%clustering%index%distributed%optimization strategy%pruning rule
针对现有基于距离的离群点检测算法在处理大规模数据时效率低的问题,提出一种基于聚类和索引的分布式离群点检测(DODCI)算法.首先利用聚类方法将大数据集划分成簇;然后在分布式环境中的各节点处并行创建各个簇的索引;最后使用两个优化策略和两条剪枝规则以循环的方式在各节点处进行离群点检测.在合成数据集和整理后的KDD CUP数据集上的实验结果显示,在数据量较大时该算法比Orca和iDOoR算法快近一个数量级.理论和实验分析表明,该算法可以有效提高大规模数据中离群点的检测效率.
針對現有基于距離的離群點檢測算法在處理大規模數據時效率低的問題,提齣一種基于聚類和索引的分佈式離群點檢測(DODCI)算法.首先利用聚類方法將大數據集劃分成簇;然後在分佈式環境中的各節點處併行創建各箇簇的索引;最後使用兩箇優化策略和兩條剪枝規則以循環的方式在各節點處進行離群點檢測.在閤成數據集和整理後的KDD CUP數據集上的實驗結果顯示,在數據量較大時該算法比Orca和iDOoR算法快近一箇數量級.理論和實驗分析錶明,該算法可以有效提高大規模數據中離群點的檢測效率.
침대현유기우거리적리군점검측산법재처리대규모수거시효솔저적문제,제출일충기우취류화색인적분포식리군점검측(DODCI)산법.수선이용취류방법장대수거집화분성족;연후재분포식배경중적각절점처병행창건각개족적색인;최후사용량개우화책략화량조전지규칙이순배적방식재각절점처진행리군점검측.재합성수거집화정리후적KDD CUP수거집상적실험결과현시,재수거량교대시해산법비Orca화iDOoR산법쾌근일개수량급.이론화실험분석표명,해산법가이유효제고대규모수거중리군점적검측효솔.