智能计算机与应用
智能計算機與應用
지능계산궤여응용
Computer Study
2015年
1期
77-80,83
,共5页
数据压缩%Hadoop%压缩数据页%行列混合存储结构
數據壓縮%Hadoop%壓縮數據頁%行列混閤存儲結構
수거압축%Hadoop%압축수거혈%행렬혼합존저결구
大数据平台Hadoop为追求通用性,牺牲了对结构化大数据的处理性能.为此,提出了一种Hadoop平台上的针对结构化数据的压缩存储策略.首先,针对多种不同的数据类型,结合轻量级压缩算法的特点,设计了多种数据类型的压缩数据页;然后,设计了基于HDFS的页式行列混合存储结构;最后,设计并实现了基于MapReduce的MR-DC数据压缩策略,将数据压缩存储到设计的存储结构中.在大规模数据仓库基准数据集上的实验结果验证了提出的策略能够显著减少结构化数据的存储量,从而为提高后续的数据分析处理性能打下基础.
大數據平檯Hadoop為追求通用性,犧牲瞭對結構化大數據的處理性能.為此,提齣瞭一種Hadoop平檯上的針對結構化數據的壓縮存儲策略.首先,針對多種不同的數據類型,結閤輕量級壓縮算法的特點,設計瞭多種數據類型的壓縮數據頁;然後,設計瞭基于HDFS的頁式行列混閤存儲結構;最後,設計併實現瞭基于MapReduce的MR-DC數據壓縮策略,將數據壓縮存儲到設計的存儲結構中.在大規模數據倉庫基準數據集上的實驗結果驗證瞭提齣的策略能夠顯著減少結構化數據的存儲量,從而為提高後續的數據分析處理性能打下基礎.
대수거평태Hadoop위추구통용성,희생료대결구화대수거적처이성능.위차,제출료일충Hadoop평태상적침대결구화수거적압축존저책략.수선,침대다충불동적수거류형,결합경량급압축산법적특점,설계료다충수거류형적압축수거혈;연후,설계료기우HDFS적혈식행렬혼합존저결구;최후,설계병실현료기우MapReduce적MR-DC수거압축책략,장수거압축존저도설계적존저결구중.재대규모수거창고기준수거집상적실험결과험증료제출적책략능구현저감소결구화수거적존저량,종이위제고후속적수거분석처이성능타하기출.