南京邮电大学学报(自然科学版)
南京郵電大學學報(自然科學版)
남경유전대학학보(자연과학판)
Journal of Nanjing University of Posts and Telecommunications(Natural Science)
2015年
5期
99-104
,共6页
数据流%PCA%并行化%Storm
數據流%PCA%併行化%Storm
수거류%PCA%병행화%Storm
data stream%PCA%parallelization%Storm
降维是指将样本从输入空间通过线性或非线性方法映射到一个低维空间,从而获得一个关于原数据集的低维表示的过程,它是高维数据挖掘的重要预处理手段之一.文中以适应数据流挖掘需求和保证降维后数据的可用性为目标,设计了基于主成分分析的并行化数据流降维算法PSP-CA.该算法使用滑动窗口机制来确定处理数据的范围,同时合并了PCA的标准化过程,改变了相关系数矩阵的计算方法,将有关计算过程基于MapReduce并行化,还将所设计的算法基于流平台Storm进行了实现.并以聚类算法K-means为例,通过实验,对比了K-means在降维前和降维后的数据集上的聚类效果.实验结果表明,PSPCA适用于数据流降维,且降维后的数据能将原数据的信息量保留在合理范围内,能保证后续数据挖掘的准确性.
降維是指將樣本從輸入空間通過線性或非線性方法映射到一箇低維空間,從而穫得一箇關于原數據集的低維錶示的過程,它是高維數據挖掘的重要預處理手段之一.文中以適應數據流挖掘需求和保證降維後數據的可用性為目標,設計瞭基于主成分分析的併行化數據流降維算法PSP-CA.該算法使用滑動窗口機製來確定處理數據的範圍,同時閤併瞭PCA的標準化過程,改變瞭相關繫數矩陣的計算方法,將有關計算過程基于MapReduce併行化,還將所設計的算法基于流平檯Storm進行瞭實現.併以聚類算法K-means為例,通過實驗,對比瞭K-means在降維前和降維後的數據集上的聚類效果.實驗結果錶明,PSPCA適用于數據流降維,且降維後的數據能將原數據的信息量保留在閤理範圍內,能保證後續數據挖掘的準確性.
강유시지장양본종수입공간통과선성혹비선성방법영사도일개저유공간,종이획득일개관우원수거집적저유표시적과정,타시고유수거알굴적중요예처리수단지일.문중이괄응수거류알굴수구화보증강유후수거적가용성위목표,설계료기우주성분분석적병행화수거류강유산법PSP-CA.해산법사용활동창구궤제래학정처리수거적범위,동시합병료PCA적표준화과정,개변료상관계수구진적계산방법,장유관계산과정기우MapReduce병행화,환장소설계적산법기우류평태Storm진행료실현.병이취류산법K-means위례,통과실험,대비료K-means재강유전화강유후적수거집상적취류효과.실험결과표명,PSPCA괄용우수거류강유,차강유후적수거능장원수거적신식량보류재합리범위내,능보증후속수거알굴적준학성.