桂林电子科技大学学报
桂林電子科技大學學報
계림전자과기대학학보
JOURNAL OF GUILIN UNIVERSITY OF ELECTRONIC TECHNOLOGY
2014年
1期
25-29
,共5页
数据挖掘%工作流%Hadoop
數據挖掘%工作流%Hadoop
수거알굴%공작류%Hadoop
data mining%workflow%Hadoop
针对现有数据挖掘软件不支持用户有序、动态地按需定制并行数据挖掘算法,且不能充分利用计算集群的能力,分析了 Hadoop技术及其多种数据处理组件,提出应用 Mahout分布式数据挖掘算法库和 Oozie 工作流技术在 Hadoop 中构建数据挖掘工作流的方法,并设计实现了一个聚类工作流实例。实验结果证明,该方法简单,且能有效地组织数据挖掘流程。
針對現有數據挖掘軟件不支持用戶有序、動態地按需定製併行數據挖掘算法,且不能充分利用計算集群的能力,分析瞭 Hadoop技術及其多種數據處理組件,提齣應用 Mahout分佈式數據挖掘算法庫和 Oozie 工作流技術在 Hadoop 中構建數據挖掘工作流的方法,併設計實現瞭一箇聚類工作流實例。實驗結果證明,該方法簡單,且能有效地組織數據挖掘流程。
침대현유수거알굴연건불지지용호유서、동태지안수정제병행수거알굴산법,차불능충분이용계산집군적능력,분석료 Hadoop기술급기다충수거처리조건,제출응용 Mahout분포식수거알굴산법고화 Oozie 공작류기술재 Hadoop 중구건수거알굴공작류적방법,병설계실현료일개취류공작류실례。실험결과증명,해방법간단,차능유효지조직수거알굴류정。
The existing data mining applications do not allow users to create customized algorithm group on demand and can not support the usage of computing clusters well,an analysis of several components of Hadoop is made,especially focusing on Mahout which is a distributed data mining algorithm library.Then Mahout and Oozie are used to create data mining workflow in Hadoop.At last,a clustering workflow is defined and implemented.The experimental results show that the method is easy and effective for creating distributed data mining process.