华东师范大学学报(自然科学版)
華東師範大學學報(自然科學版)
화동사범대학학보(자연과학판)
JOURNAL OF EAST CHINA NORMAL UNIVERSITY(NATURAL SCIENCE)
2014年
5期
263-270,280
,共9页
卞昊穹%陈跃国%杜小勇%高彦杰
卞昊穹%陳躍國%杜小勇%高彥傑
변호궁%진약국%두소용%고언걸
Spark%SQL%大数据分析%等值连接%内存计算
Spark%SQL%大數據分析%等值連接%內存計算
Spark%SQL%대수거분석%등치련접%내존계산
Spark%SQL%big data analysis%equi-join%in-memory computation
等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的Broadcast Join和Repartition Join性能较差,如何提高连接性能成为基于Spark的海量数据分析的关键.本研究将Simi-Join与Partition Join的优势相结合,并基于Spark上的特性提出了一种优化的等值连接算法.代价分析和实验表明本算法比现有基于Spark的数据分析系统中的连接算法性能提升1~2倍.
等值連接作為數據分析中最常用、代價最高的操作之一,在Spark上的實現和優化與傳統併行數據庫有很大的差彆,傳統併行數據倉庫中基于數據預劃分的連接算法在Spark上難以實現,而目前被廣汎採用的Broadcast Join和Repartition Join性能較差,如何提高連接性能成為基于Spark的海量數據分析的關鍵.本研究將Simi-Join與Partition Join的優勢相結閤,併基于Spark上的特性提齣瞭一種優化的等值連接算法.代價分析和實驗錶明本算法比現有基于Spark的數據分析繫統中的連接算法性能提升1~2倍.
등치련접작위수거분석중최상용、대개최고적조작지일,재Spark상적실현화우화여전통병행수거고유흔대적차별,전통병행수거창고중기우수거예화분적련접산법재Spark상난이실현,이목전피엄범채용적Broadcast Join화Repartition Join성능교차,여하제고련접성능성위기우Spark적해량수거분석적관건.본연구장Simi-Join여Partition Join적우세상결합,병기우Spark상적특성제출료일충우화적등치련접산법.대개분석화실험표명본산법비현유기우Spark적수거분석계통중적련접산법성능제승1~2배.