数值计算与计算机应用
數值計算與計算機應用
수치계산여계산궤응용
JOURNAL ON NUMERICAL METHODS AND COMPUTER APPLICATIONS
2012年
1期
59-72
,共14页
六边形区域快速傅里叶变换%CUDA-MPI算法%并行排序
六邊形區域快速傅裏葉變換%CUDA-MPI算法%併行排序
륙변형구역쾌속부리협변환%CUDA-MPI산법%병행배서
本文研究六边形区域上快速傅里叶变换(FFTH)的CUDA-MPI算法及其实现.首先,我们通过充分利用CUDA的层次化并行机制及其库函数,设计了FFTH的高效率的CUDA算法.对于规模为3×20482的双精度复数类型数据,我们设计的CUDA程序与CPU串行程序相比可以达到12倍加速比,如果不计内存和显存之间的数据传输,则加速比可达40倍;其计算效率与CUFFT所提供的二维方形区域FFT程序的效率基本一致.在此基础上,我们通过研究GPU上分布式并行数据的转置与排序算法,优化设计了FFTH的CUDA-MPI算法.在3×81922的数据规模、10节点×6GPU的计算环境下,我们的CUDA-MPI程序与CPU串行程序相比达到了55倍的加速;其效率比MPI并行版FFTW以及基于CUFFT本地计算和FFTW并行转置的方形区域并行FFT的效率都要高出很多.FFTH的CUDA-MPI算法研究和测试为大规模CPU+GPU异构计算机系统的可扩展新型算法的探索提供了参考.
本文研究六邊形區域上快速傅裏葉變換(FFTH)的CUDA-MPI算法及其實現.首先,我們通過充分利用CUDA的層次化併行機製及其庫函數,設計瞭FFTH的高效率的CUDA算法.對于規模為3×20482的雙精度複數類型數據,我們設計的CUDA程序與CPU串行程序相比可以達到12倍加速比,如果不計內存和顯存之間的數據傳輸,則加速比可達40倍;其計算效率與CUFFT所提供的二維方形區域FFT程序的效率基本一緻.在此基礎上,我們通過研究GPU上分佈式併行數據的轉置與排序算法,優化設計瞭FFTH的CUDA-MPI算法.在3×81922的數據規模、10節點×6GPU的計算環境下,我們的CUDA-MPI程序與CPU串行程序相比達到瞭55倍的加速;其效率比MPI併行版FFTW以及基于CUFFT本地計算和FFTW併行轉置的方形區域併行FFT的效率都要高齣很多.FFTH的CUDA-MPI算法研究和測試為大規模CPU+GPU異構計算機繫統的可擴展新型算法的探索提供瞭參攷.
본문연구륙변형구역상쾌속부리협변환(FFTH)적CUDA-MPI산법급기실현.수선,아문통과충분이용CUDA적층차화병행궤제급기고함수,설계료FFTH적고효솔적CUDA산법.대우규모위3×20482적쌍정도복수류형수거,아문설계적CUDA정서여CPU천행정서상비가이체도12배가속비,여과불계내존화현존지간적수거전수,칙가속비가체40배;기계산효솔여CUFFT소제공적이유방형구역FFT정서적효솔기본일치.재차기출상,아문통과연구GPU상분포식병행수거적전치여배서산법,우화설계료FFTH적CUDA-MPI산법.재3×81922적수거규모、10절점×6GPU적계산배경하,아문적CUDA-MPI정서여CPU천행정서상비체도료55배적가속;기효솔비MPI병행판FFTW이급기우CUFFT본지계산화FFTW병행전치적방형구역병행FFT적효솔도요고출흔다.FFTH적CUDA-MPI산법연구화측시위대규모CPU+GPU이구계산궤계통적가확전신형산법적탐색제공료삼고.