计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2015年
5期
847-856
,共10页
张帅%李涛%王艺峰%焦晓帆%杨愚鲁
張帥%李濤%王藝峰%焦曉帆%楊愚魯
장수%리도%왕예봉%초효범%양우로
通用矩阵乘%持久化kernel%任务并行%负载均衡
通用矩陣乘%持久化kernel%任務併行%負載均衡
통용구진승%지구화kernel%임무병행%부재균형
GEMM%persistent kernel%task parallelism%load balancing
稠密线性代数运算对模式识别和生物信息等许多实际应用至关重要,而通用矩阵乘(GEMM)处于稠密线性代数运算的基础地位.在cuBLAS与MAGMA中,GEMM被实现为若干kernel函数,对大型GEMM计算能够达到很高的性能.然而,现有实现对批量的小型GEMM计算性能发挥则较为有限.而且,现有实现也不能在多个具有不同性能的GPU之间自动扩展并达到负载均衡.提出任务并行式GEMM(TPGEMM),用细粒度任务并行的方式实现批量矩阵乘和多GPU矩阵乘.一个或多个GEMM的计算能够被拆分为多个任务,动态地调度到一个或多个GPU上.TPGEMM避免了为批量矩阵乘启动多个kernel函数的开销,对批量矩阵乘能够取得显著高于cuBLAS与MAGMA的性能.在低开销细粒度任务调度的基础上,TPGEMM支持单个GEMM计算在多个GPU间的自动并行,在一台具有四个不同性能GPU的工作站上取得了接近100%的扩展效率.
稠密線性代數運算對模式識彆和生物信息等許多實際應用至關重要,而通用矩陣乘(GEMM)處于稠密線性代數運算的基礎地位.在cuBLAS與MAGMA中,GEMM被實現為若榦kernel函數,對大型GEMM計算能夠達到很高的性能.然而,現有實現對批量的小型GEMM計算性能髮揮則較為有限.而且,現有實現也不能在多箇具有不同性能的GPU之間自動擴展併達到負載均衡.提齣任務併行式GEMM(TPGEMM),用細粒度任務併行的方式實現批量矩陣乘和多GPU矩陣乘.一箇或多箇GEMM的計算能夠被拆分為多箇任務,動態地調度到一箇或多箇GPU上.TPGEMM避免瞭為批量矩陣乘啟動多箇kernel函數的開銷,對批量矩陣乘能夠取得顯著高于cuBLAS與MAGMA的性能.在低開銷細粒度任務調度的基礎上,TPGEMM支持單箇GEMM計算在多箇GPU間的自動併行,在一檯具有四箇不同性能GPU的工作站上取得瞭接近100%的擴展效率.
주밀선성대수운산대모식식별화생물신식등허다실제응용지관중요,이통용구진승(GEMM)처우주밀선성대수운산적기출지위.재cuBLAS여MAGMA중,GEMM피실현위약간kernel함수,대대형GEMM계산능구체도흔고적성능.연이,현유실현대비량적소형GEMM계산성능발휘칙교위유한.이차,현유실현야불능재다개구유불동성능적GPU지간자동확전병체도부재균형.제출임무병행식GEMM(TPGEMM),용세립도임무병행적방식실현비량구진승화다GPU구진승.일개혹다개GEMM적계산능구피탁분위다개임무,동태지조도도일개혹다개GPU상.TPGEMM피면료위비량구진승계동다개kernel함수적개소,대비량구진승능구취득현저고우cuBLAS여MAGMA적성능.재저개소세립도임무조도적기출상,TPGEMM지지단개GEMM계산재다개GPU간적자동병행,재일태구유사개불동성능GPU적공작참상취득료접근100%적확전효솔.