计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2009年
11期
66-68,109
,共4页
容错%作业检查点/恢复%资源管理
容錯%作業檢查點/恢複%資源管理
용착%작업검사점/회복%자원관리
fault-tolerance%job checkpoint/restart%resource management
本文提出了在资源管理系统中基于作业检查点实现自动容错支持,深入分析了作业与任务检查点分离、映像文件管理、自动恢复执行等关键技术.基于BLCR在SLURM中实现了作业的自动检查点/恢复,详细介绍了实现中的关键技术难题.分析与测试表明,检查点与恢复执行功能正确,并能有效缩短大规模作业成功运行所需的时间.
本文提齣瞭在資源管理繫統中基于作業檢查點實現自動容錯支持,深入分析瞭作業與任務檢查點分離、映像文件管理、自動恢複執行等關鍵技術.基于BLCR在SLURM中實現瞭作業的自動檢查點/恢複,詳細介紹瞭實現中的關鍵技術難題.分析與測試錶明,檢查點與恢複執行功能正確,併能有效縮短大規模作業成功運行所需的時間.
본문제출료재자원관리계통중기우작업검사점실현자동용착지지,심입분석료작업여임무검사점분리、영상문건관리、자동회복집행등관건기술.기우BLCR재SLURM중실현료작업적자동검사점/회복,상세개소료실현중적관건기술난제.분석여측시표명,검사점여회복집행공능정학,병능유효축단대규모작업성공운행소수적시간.
An automatic fault-tolerance method based on job checkpoint/restart in resource management systems is pro-posed The key technologies are presented, including the separation of job checkpoint and task checkpoint, management of checkpoint image files, and automatic job restart.Automatic job checkpoint/restart with BLCR is implemented in SLURM and the challenges are discussed. Analysis and experiments show that the checkpoint and restart works correctly, and the time to complete large-scale jobs is reduced effectively.