软件学报
軟件學報
연건학보
JOURNAL OF SOFTWARE
2012年
4期
1022-1035
,共14页
容错机制%可扩展性%三模冗余%大规模并行计算%MPI
容錯機製%可擴展性%三模冗餘%大規模併行計算%MPI
용착궤제%가확전성%삼모용여%대규모병행계산%MPI
随着系统规模的扩大,并行计算的性能不断提高,但可靠性却也在不断下降,因此需要采用某种容错机制来容忍或恢复硬件故障和数据错误.目前常用的容错机制Checkpoint/Restart和多模冗余均引入了额外的开销,这些开销均在某种程度上制约了并行计算的可扩展性.因此,在高性能计算需求不断增长的今天,可扩展容错机制的设计显得尤为迫切和重要.以三模冗余(triple modular redundancy,简称TMR)为典型案例,描述了传统TMR在大规模MPI 并行计算上的实现方法,分析了该机制所面临的实际问题,进而指出传统TMR制约了并行计算的扩展.根据该技术所面临的问题,设计了可扩展三模冗余(scalable triple modular redundancy,简称STMR),并进一步验证了其有效性和可扩展性.该机制不仅能够处理Checkpoint/Restart针对的fail-stop故障,还能够解决绝大部分硬件不能直接感知的数据错误.最后,借用BlueGene/L的系统参数进行模拟,预测当系统规模增大时,在分别采用TMR和STMR的情况下并行计算可扩展性的变化,结果进一步验证了STMR是可扩展的容错机制.
隨著繫統規模的擴大,併行計算的性能不斷提高,但可靠性卻也在不斷下降,因此需要採用某種容錯機製來容忍或恢複硬件故障和數據錯誤.目前常用的容錯機製Checkpoint/Restart和多模冗餘均引入瞭額外的開銷,這些開銷均在某種程度上製約瞭併行計算的可擴展性.因此,在高性能計算需求不斷增長的今天,可擴展容錯機製的設計顯得尤為迫切和重要.以三模冗餘(triple modular redundancy,簡稱TMR)為典型案例,描述瞭傳統TMR在大規模MPI 併行計算上的實現方法,分析瞭該機製所麵臨的實際問題,進而指齣傳統TMR製約瞭併行計算的擴展.根據該技術所麵臨的問題,設計瞭可擴展三模冗餘(scalable triple modular redundancy,簡稱STMR),併進一步驗證瞭其有效性和可擴展性.該機製不僅能夠處理Checkpoint/Restart針對的fail-stop故障,還能夠解決絕大部分硬件不能直接感知的數據錯誤.最後,藉用BlueGene/L的繫統參數進行模擬,預測噹繫統規模增大時,在分彆採用TMR和STMR的情況下併行計算可擴展性的變化,結果進一步驗證瞭STMR是可擴展的容錯機製.
수착계통규모적확대,병행계산적성능불단제고,단가고성각야재불단하강,인차수요채용모충용착궤제래용인혹회복경건고장화수거착오.목전상용적용착궤제Checkpoint/Restart화다모용여균인입료액외적개소,저사개소균재모충정도상제약료병행계산적가확전성.인차,재고성능계산수구불단증장적금천,가확전용착궤제적설계현득우위박절화중요.이삼모용여(triple modular redundancy,간칭TMR)위전형안례,묘술료전통TMR재대규모MPI 병행계산상적실현방법,분석료해궤제소면림적실제문제,진이지출전통TMR제약료병행계산적확전.근거해기술소면림적문제,설계료가확전삼모용여(scalable triple modular redundancy,간칭STMR),병진일보험증료기유효성화가확전성.해궤제불부능구처리Checkpoint/Restart침대적fail-stop고장,환능구해결절대부분경건불능직접감지적수거착오.최후,차용BlueGene/L적계통삼수진행모의,예측당계통규모증대시,재분별채용TMR화STMR적정황하병행계산가확전성적변화,결과진일보험증료STMR시가확전적용착궤제.