小型微型计算机系统
小型微型計算機繫統
소형미형계산궤계통
MINI-MICRO SYSTEMS
2012年
3期
571-575
,共5页
何颂颂%顾乃杰%朱海涛%刘燕君
何頌頌%顧迺傑%硃海濤%劉燕君
하송송%고내걸%주해도%류연군
矩阵乘法%BLAS%任务划分%Linpack
矩陣乘法%BLAS%任務劃分%Linpack
구진승법%BLAS%임무화분%Linpack
双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEMM来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替换),通过使用地址交错技术,减少了Cache的冲突失效;针对龙芯3A访存带宽有限的问题,通过使用共享数据的任务划分方式,减少了数据访存量.优化后的DGEMM单核和多核运算速度均是性能最高的开源BLAS库(GotoBLAS)的2倍多.
雙精度普通矩陣乘法DGEMM是BLAS庫中最覈心的函數之一,大部分三級BLAS庫函數的覈心計算都是通過調用DGEMM來實現的.該文針對龍芯3A具有128位訪存指令的特點,通過理論分析,找到瞭最佳的循環展開方式;針對龍芯3A的Cache替換策略(隨機替換),通過使用地阯交錯技術,減少瞭Cache的遲突失效;針對龍芯3A訪存帶寬有限的問題,通過使用共享數據的任務劃分方式,減少瞭數據訪存量.優化後的DGEMM單覈和多覈運算速度均是性能最高的開源BLAS庫(GotoBLAS)的2倍多.
쌍정도보통구진승법DGEMM시BLAS고중최핵심적함수지일,대부분삼급BLAS고함수적핵심계산도시통과조용DGEMM래실현적.해문침대룡심3A구유128위방존지령적특점,통과이론분석,조도료최가적순배전개방식;침대룡심3A적Cache체환책략(수궤체환),통과사용지지교착기술,감소료Cache적충돌실효;침대룡심3A방존대관유한적문제,통과사용공향수거적임무화분방식,감소료수거방존량.우화후적DGEMM단핵화다핵운산속도균시성능최고적개원BLAS고(GotoBLAS)적2배다.