计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2009年
11期
91-93,105
,共4页
罗红兵%曹小林%曹立强%武林平%莫则尧
囉紅兵%曹小林%曹立彊%武林平%莫則堯
라홍병%조소림%조립강%무림평%막칙요
超级计算机%并行作业%稳定性
超級計算機%併行作業%穩定性
초급계산궤%병행작업%은정성
supercomputer%parallel job%stability
通过作业日志分析和考核实验方式,对超级计算机并行作业运行稳定性进行了分析.日志分析结果表明,并行作业运行的稳定性会随作业执行时间的增长、作业使用CPU数的增多而下降;当并行作业的计算量达到105CPU小时量级,超过20%的作业会因系统故障而中止.考核实验结果表明,使用数千CPU的并行作业很容易受到多种因素的干扰而中止,很难持续运行超过24小时.最后给出了有关超级计算机稳定性改进、系统管理使用和并行程序研制的几点建议.
通過作業日誌分析和攷覈實驗方式,對超級計算機併行作業運行穩定性進行瞭分析.日誌分析結果錶明,併行作業運行的穩定性會隨作業執行時間的增長、作業使用CPU數的增多而下降;噹併行作業的計算量達到105CPU小時量級,超過20%的作業會因繫統故障而中止.攷覈實驗結果錶明,使用數韆CPU的併行作業很容易受到多種因素的榦擾而中止,很難持續運行超過24小時.最後給齣瞭有關超級計算機穩定性改進、繫統管理使用和併行程序研製的幾點建議.
통과작업일지분석화고핵실험방식,대초급계산궤병행작업운행은정성진행료분석.일지분석결과표명,병행작업운행적은정성회수작업집행시간적증장、작업사용CPU수적증다이하강;당병행작업적계산량체도105CPU소시량급,초과20%적작업회인계통고장이중지.고핵실험결과표명,사용수천CPU적병행작업흔용역수도다충인소적간우이중지,흔난지속운행초과24소시.최후급출료유관초급계산궤은정성개진、계통관리사용화병행정서연제적궤점건의.
We analyse the status of stability for parallel jobs on a supercomputer. The ways to evaluate stability include analyzing a workload from the batch system and testing a parallel application on 2000 processors. The analysis of the work-load shows: the stability of parallel jobs decreases when the execution time and processors for the jobs increase; more than 20 percent jobs will abort due to the computing node failures when they need 10~5 CPU hours. The result of testing shows the parallel jobs with thousands of processors is prone to abortion by the multiple facts,and their sustaining execution time is hard to reach 24 hours. Finally, we give some suggestions on system management, improving the stability of supercom-puters, and designing parallel programs.