电子科技大学学报
電子科技大學學報
전자과기대학학보
JOURNAL OF UNIVERSITY OF ELECTRONIC SCIENCE AND TECHNOLOGY OF CHINA
2012年
1期
92-97
,共6页
陈飞%曹政%王凯%胡农达%安学军
陳飛%曹政%王凱%鬍農達%安學軍
진비%조정%왕개%호농체%안학군
集合操作%通信系统%计算节点%细粒度同步%高性能计算机%混合编程%消息传递
集閤操作%通信繫統%計算節點%細粒度同步%高性能計算機%混閤編程%消息傳遞
집합조작%통신계통%계산절점%세립도동보%고성능계산궤%혼합편정%소식전체
随着GPU等加速部件在超级计算领域的广泛应用,超级计算机单个节点的硬件并行度比单核时代高几倍甚至几十倍.在该环境下,并行应用于单个芯片、计算节点内和计算节点间的通信密度较单核时代急剧增加,通信瓶颈问题愈发突出.为应对高并行度带来的通信瓶颈问题,提出一种同步引擎的硬件设计,该同步引擎可有效地支持和加速计算节点内多任务间频繁小数据量传输(细粒度同步)以及计算节点内和节点间的Barrier、All-reduce集合操作,进而加速并行应用的性能.测试结果表明,在16进程规模下的集合操作测试中,同步引擎相比传统的软件实现有约4倍的加速,在三角矩阵分解(LU分解)测试程序中可以获得约20%的性能提升.
隨著GPU等加速部件在超級計算領域的廣汎應用,超級計算機單箇節點的硬件併行度比單覈時代高幾倍甚至幾十倍.在該環境下,併行應用于單箇芯片、計算節點內和計算節點間的通信密度較單覈時代急劇增加,通信瓶頸問題愈髮突齣.為應對高併行度帶來的通信瓶頸問題,提齣一種同步引擎的硬件設計,該同步引擎可有效地支持和加速計算節點內多任務間頻繁小數據量傳輸(細粒度同步)以及計算節點內和節點間的Barrier、All-reduce集閤操作,進而加速併行應用的性能.測試結果錶明,在16進程規模下的集閤操作測試中,同步引擎相比傳統的軟件實現有約4倍的加速,在三角矩陣分解(LU分解)測試程序中可以穫得約20%的性能提升.
수착GPU등가속부건재초급계산영역적엄범응용,초급계산궤단개절점적경건병행도비단핵시대고궤배심지궤십배.재해배경하,병행응용우단개심편、계산절점내화계산절점간적통신밀도교단핵시대급극증가,통신병경문제유발돌출.위응대고병행도대래적통신병경문제,제출일충동보인경적경건설계,해동보인경가유효지지지화가속계산절점내다임무간빈번소수거량전수(세립도동보)이급계산절점내화절점간적Barrier、All-reduce집합조작,진이가속병행응용적성능.측시결과표명,재16진정규모하적집합조작측시중,동보인경상비전통적연건실현유약4배적가속,재삼각구진분해(LU분해)측시정서중가이획득약20%적성능제승.