计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2013年
z2期
77-84
,共8页
韩蕾%孙徐湛%吴志川%陈立军
韓蕾%孫徐湛%吳誌川%陳立軍
한뢰%손서담%오지천%진립군
抽样%MapReduce框架%数据倾斜%负载平衡%数据集划分
抽樣%MapReduce框架%數據傾斜%負載平衡%數據集劃分
추양%MapReduce광가%수거경사%부재평형%수거집화분
sampling%MapReduce%data skew%load balance%dataset division
MapReduce是一个目前应用广泛的并行计算框架,如何解决Reduce节点的负载平衡问题是MapReduce程序执行效率的一个重要研究方向.基于抽样的划分是一种比较有效的数据划分方法,为了使得抽样方法发挥最大程度的效益,研究了抽样效果与其重要影响因素之间的定量关系,并给出了相关理论及其证明推导,同时通过实验进一步验证了理论的正确性.基于研究的结果,可以在给定MapReduce环境中,通过分析数据特征,找到最优抽样样本规模,从而通过尽可能小的抽样代价来得到满足要求的数据划分.通过将研究成果应用在改进的Terasort算法上,以实例验证了其在MapRedece平台上的实际意义.
MapReduce是一箇目前應用廣汎的併行計算框架,如何解決Reduce節點的負載平衡問題是MapReduce程序執行效率的一箇重要研究方嚮.基于抽樣的劃分是一種比較有效的數據劃分方法,為瞭使得抽樣方法髮揮最大程度的效益,研究瞭抽樣效果與其重要影響因素之間的定量關繫,併給齣瞭相關理論及其證明推導,同時通過實驗進一步驗證瞭理論的正確性.基于研究的結果,可以在給定MapReduce環境中,通過分析數據特徵,找到最優抽樣樣本規模,從而通過儘可能小的抽樣代價來得到滿足要求的數據劃分.通過將研究成果應用在改進的Terasort算法上,以實例驗證瞭其在MapRedece平檯上的實際意義.
MapReduce시일개목전응용엄범적병행계산광가,여하해결Reduce절점적부재평형문제시MapReduce정서집행효솔적일개중요연구방향.기우추양적화분시일충비교유효적수거화분방법,위료사득추양방법발휘최대정도적효익,연구료추양효과여기중요영향인소지간적정량관계,병급출료상관이론급기증명추도,동시통과실험진일보험증료이론적정학성.기우연구적결과,가이재급정MapReduce배경중,통과분석수거특정,조도최우추양양본규모,종이통과진가능소적추양대개래득도만족요구적수거화분.통과장연구성과응용재개진적Terasort산법상,이실례험증료기재MapRedece평태상적실제의의.