现代电子技术
現代電子技術
현대전자기술
MODERN ELECTRONICS TECHNIQUE
2014年
10期
137-140
,共4页
李晓雯%崔翔%殷瑞杰%刘强
李曉雯%崔翔%慇瑞傑%劉彊
리효문%최상%은서걸%류강
GPU程序设计%矩阵乘法%自动优化%GEMM模板
GPU程序設計%矩陣乘法%自動優化%GEMM模闆
GPU정서설계%구진승법%자동우화%GEMM모판
GPU programming%matrix multiplication%automatic optimization%GEMM template
讨论在Fermi结构GPU使用CUDA对GEMM(单精度和双精度)算法进行优化,以及Fermi体系结构的新特性(如缓存)对性能的影响。GPU缓存一方面可以提高处理器在运行时数据访问的局部性,另一方面使得代码性能对与性能相关算法参数的依赖变得不可预测。自动优化技术可以用来解决这一问题。自动优化的SGEMM和DGEMM代码在Tesla C2050 GPU上达到了563GFlops和253GFlops的性能。代码使用CUDA和C语言进行实现,未进行二进制代码级别的优化。
討論在Fermi結構GPU使用CUDA對GEMM(單精度和雙精度)算法進行優化,以及Fermi體繫結構的新特性(如緩存)對性能的影響。GPU緩存一方麵可以提高處理器在運行時數據訪問的跼部性,另一方麵使得代碼性能對與性能相關算法參數的依賴變得不可預測。自動優化技術可以用來解決這一問題。自動優化的SGEMM和DGEMM代碼在Tesla C2050 GPU上達到瞭563GFlops和253GFlops的性能。代碼使用CUDA和C語言進行實現,未進行二進製代碼級彆的優化。
토론재Fermi결구GPU사용CUDA대GEMM(단정도화쌍정도)산법진행우화,이급Fermi체계결구적신특성(여완존)대성능적영향。GPU완존일방면가이제고처리기재운행시수거방문적국부성,령일방면사득대마성능대여성능상관산법삼수적의뢰변득불가예측。자동우화기술가이용래해결저일문제。자동우화적SGEMM화DGEMM대마재Tesla C2050 GPU상체도료563GFlops화253GFlops적성능。대마사용CUDA화C어언진행실현,미진행이진제대마급별적우화。
Automatic optimization of GEMM algorithm on Fermi GPU and the impact of Fermi GPU’s architectural fea-tures on performance are discussed in this paper. The cache on GPU can not only improve the data access locality of proces-sors,but also make the code performance relying on relative algorithm parameters unpredictable. Auto-tuning can be used to solve this problem. Auto-tuned SGEMM and DGEMM codes achieve 563 GFlops and 253 GFlops respectively on C2050 GPU. The codes are implemented by using CUDA and C language,but the optimization on the binary level is not involved.