计算机应用与软件
計算機應用與軟件
계산궤응용여연건
COMPUTER APPLICATIONS AND SOFTWARE
2014年
6期
21-23,28
,共4页
海量数据%并行化%连续属性离散化%Hadoop
海量數據%併行化%連續屬性離散化%Hadoop
해량수거%병행화%련속속성리산화%Hadoop
Massive data%Parallelisation%Continuous attribute discretisation%Hadoop
连续属性的离散化是机器学习和数据挖掘的重要预处理步骤,如何高效处理海量数据连续属性离散化已成为急需要解决的问题.近年来兴起的Hadoop技术能够有效处理基于海量数据的应用.为此,设计和实现一种基于MapReduce编程模型的连续属性离散化并行算法,并给出算法设计的方法和策略.在保证离散效果的情况下,使用不同大小数据集在不同节点的集群环境下的实验结果表明,所设计的并行离散化算法具有较高的执行效率和较好的可扩展性,适合用于海量数据的快速离散化处理.
連續屬性的離散化是機器學習和數據挖掘的重要預處理步驟,如何高效處理海量數據連續屬性離散化已成為急需要解決的問題.近年來興起的Hadoop技術能夠有效處理基于海量數據的應用.為此,設計和實現一種基于MapReduce編程模型的連續屬性離散化併行算法,併給齣算法設計的方法和策略.在保證離散效果的情況下,使用不同大小數據集在不同節點的集群環境下的實驗結果錶明,所設計的併行離散化算法具有較高的執行效率和較好的可擴展性,適閤用于海量數據的快速離散化處理.
련속속성적리산화시궤기학습화수거알굴적중요예처리보취,여하고효처리해량수거련속속성리산화이성위급수요해결적문제.근년래흥기적Hadoop기술능구유효처리기우해량수거적응용.위차,설계화실현일충기우MapReduce편정모형적련속속성리산화병행산법,병급출산법설계적방법화책략.재보증리산효과적정황하,사용불동대소수거집재불동절점적집군배경하적실험결과표명,소설계적병행리산화산법구유교고적집행효솔화교호적가확전성,괄합용우해량수거적쾌속리산화처리.