计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2013年
3期
111-115
,共5页
蒋丽媛%张云泉%龙国平%贾海鹏
蔣麗媛%張雲泉%龍國平%賈海鵬
장려원%장운천%룡국평%가해붕
GPU%OpenCL%向量化%ROI
GPU%OpenCL%嚮量化%ROI
GPU%OpenCL%향양화%ROI
连续的数据无关是指计算目标矩阵连续的元素时使用的源矩阵元素之间没有关系且也为连续的,访存密集型是指函数的计算量较小,但是有大量的数据传输操作.在OpenCL框架下,以bitwise函数为例,研究和实现了连续数据无关访存密集型函数在GPU平台上的并行与优化.在考察向量化、线程组织方式和指令选择优化等多个优化角度在不同的GPU硬件平台上对性能的影响之后,实现了这个函数的跨平台性能移植.实验结果表明,在不考虑数据传输的前提下,优化后的函数与这个函数在OpenCV库中的CPU版本相比,在AMD HD 5850 GPU达到了平均40倍的性能加速比;在AMD HD 7970 GPU达到了平均90倍的性能加速比;在NVIDIA Tesla C2050 GPU上达到了平均60倍的性能加速比;同时,与这个函数在OpenCV库中的CUDA实现相比,在NVIDIA Tesla C2050平台上也达到了1.5倍的性能加速.
連續的數據無關是指計算目標矩陣連續的元素時使用的源矩陣元素之間沒有關繫且也為連續的,訪存密集型是指函數的計算量較小,但是有大量的數據傳輸操作.在OpenCL框架下,以bitwise函數為例,研究和實現瞭連續數據無關訪存密集型函數在GPU平檯上的併行與優化.在攷察嚮量化、線程組織方式和指令選擇優化等多箇優化角度在不同的GPU硬件平檯上對性能的影響之後,實現瞭這箇函數的跨平檯性能移植.實驗結果錶明,在不攷慮數據傳輸的前提下,優化後的函數與這箇函數在OpenCV庫中的CPU版本相比,在AMD HD 5850 GPU達到瞭平均40倍的性能加速比;在AMD HD 7970 GPU達到瞭平均90倍的性能加速比;在NVIDIA Tesla C2050 GPU上達到瞭平均60倍的性能加速比;同時,與這箇函數在OpenCV庫中的CUDA實現相比,在NVIDIA Tesla C2050平檯上也達到瞭1.5倍的性能加速.
련속적수거무관시지계산목표구진련속적원소시사용적원구진원소지간몰유관계차야위련속적,방존밀집형시지함수적계산량교소,단시유대량적수거전수조작.재OpenCL광가하,이bitwise함수위례,연구화실현료련속수거무관방존밀집형함수재GPU평태상적병행여우화.재고찰향양화、선정조직방식화지령선택우화등다개우화각도재불동적GPU경건평태상대성능적영향지후,실현료저개함수적과평태성능이식.실험결과표명,재불고필수거전수적전제하,우화후적함수여저개함수재OpenCV고중적CPU판본상비,재AMD HD 5850 GPU체도료평균40배적성능가속비;재AMD HD 7970 GPU체도료평균90배적성능가속비;재NVIDIA Tesla C2050 GPU상체도료평균60배적성능가속비;동시,여저개함수재OpenCV고중적CUDA실현상비,재NVIDIA Tesla C2050평태상야체도료1.5배적성능가속.