计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2012年
5期
271-277
,共7页
贾海鹏%张云泉%龙国平%徐建良%李焱
賈海鵬%張雲泉%龍國平%徐建良%李焱
가해붕%장운천%룡국평%서건량%리염
OpenCL%通用计算%拉普拉斯算法%跨平台
OpenCL%通用計算%拉普拉斯算法%跨平檯
OpenCL%통용계산%랍보랍사산법%과평태
OpenCL是面向异构计算平台的通用编程框架,然而由于硬件体系结构的差异,如何在平台间功能移植的基础上实现性能移植仍是有待研究的问题.当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行.在分析了不同GPU平台底层硬件架构的基础上,从Global Memory的访存效率、GPU计算资源的有效利用率及其硬件资源的限制等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响;并在此基础上实现了基于OpenCL的拉普拉斯图像增强算法.实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMD和NVIDIA GPU上都取得了3.7~136.1倍、平均56.7倍的性能加速,优化后的kernel比NVIDIA NPP库中相应函数也取得了12.3%~346.7%、平均143.1%的性能提升,验证了提出的优化方法的有效性和性能可移植性.
OpenCL是麵嚮異構計算平檯的通用編程框架,然而由于硬件體繫結構的差異,如何在平檯間功能移植的基礎上實現性能移植仍是有待研究的問題.噹前已有算法優化研究一般隻針對單一硬件平檯,它們很難實現在不同平檯上的高效運行.在分析瞭不同GPU平檯底層硬件架構的基礎上,從Global Memory的訪存效率、GPU計算資源的有效利用率及其硬件資源的限製等多箇角度攷察瞭不同優化方法在不同GPU硬件平檯上對性能的影響;併在此基礎上實現瞭基于OpenCL的拉普拉斯圖像增彊算法.實驗結果錶明,優化後的算法在不攷慮數據傳輸時間的前提下,在AMD和NVIDIA GPU上都取得瞭3.7~136.1倍、平均56.7倍的性能加速,優化後的kernel比NVIDIA NPP庫中相應函數也取得瞭12.3%~346.7%、平均143.1%的性能提升,驗證瞭提齣的優化方法的有效性和性能可移植性.
OpenCL시면향이구계산평태적통용편정광가,연이유우경건체계결구적차이,여하재평태간공능이식적기출상실현성능이식잉시유대연구적문제.당전이유산법우화연구일반지침대단일경건평태,타문흔난실현재불동평태상적고효운행.재분석료불동GPU평태저층경건가구적기출상,종Global Memory적방존효솔、GPU계산자원적유효이용솔급기경건자원적한제등다개각도고찰료불동우화방법재불동GPU경건평태상대성능적영향;병재차기출상실현료기우OpenCL적랍보랍사도상증강산법.실험결과표명,우화후적산법재불고필수거전수시간적전제하,재AMD화NVIDIA GPU상도취득료3.7~136.1배、평균56.7배적성능가속,우화후적kernel비NVIDIA NPP고중상응함수야취득료12.3%~346.7%、평균143.1%적성능제승,험증료제출적우화방법적유효성화성능가이식성.