计算技术与自动化
計算技術與自動化
계산기술여자동화
COMPUTING TECHNOLOGY AND AUTOMATION
2015年
2期
74-77
,共4页
离群点检测%网格%MapReduce%MR_DBScan
離群點檢測%網格%MapReduce%MR_DBScan
리군점검측%망격%MapReduce%MR_DBScan
outlier detection%grid%MapReduce%MR_DBScan
在数据密集型计算环境中,数据的海量、高维、分布存储等特点,为数据挖掘算法的设计与实现带来了新的挑战。基于 MapReduce模型提出网格技术与基于密度的方法相结合的离群点挖掘算法,该算法分为两步:Map阶段采用网格技术删除大量不可能成为离群点的正常数据,将代表点信息发送给主节点;Reduce阶段采用基于密度的聚类方法,通过改进其核心对象选取,可以挖掘任意形状的离群点。实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘。
在數據密集型計算環境中,數據的海量、高維、分佈存儲等特點,為數據挖掘算法的設計與實現帶來瞭新的挑戰。基于 MapReduce模型提齣網格技術與基于密度的方法相結閤的離群點挖掘算法,該算法分為兩步:Map階段採用網格技術刪除大量不可能成為離群點的正常數據,將代錶點信息髮送給主節點;Reduce階段採用基于密度的聚類方法,通過改進其覈心對象選取,可以挖掘任意形狀的離群點。實驗結果錶明,在數據密集型計算環境中,該方法能有效的對離群點進行挖掘。
재수거밀집형계산배경중,수거적해량、고유、분포존저등특점,위수거알굴산법적설계여실현대래료신적도전。기우 MapReduce모형제출망격기술여기우밀도적방법상결합적리군점알굴산법,해산법분위량보:Map계단채용망격기술산제대량불가능성위리군점적정상수거,장대표점신식발송급주절점;Reduce계단채용기우밀도적취류방법,통과개진기핵심대상선취,가이알굴임의형상적리군점。실험결과표명,재수거밀집형계산배경중,해방법능유효적대리군점진행알굴。
The characteristics of data,such as huge amounts,high dimension and distributed storage etc,have brought new challenges for the design of outlier mining algorithm.This paper proposed a grid and density based outlier mining meth-od on account of MapReduce.It is divided into two steps:in the Map phase,which deletes a large number of normal data, then sends the representative information to the master node.During the Reduce phase,it uses clustering algorithm based on density and simplifies the selection of the core.It can detect any shapes of outliers.The experimental results show that,in data-intensive computing environments,the algorithm is effective for mining outliers.