计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2009年
z1期
237-240
,共4页
大规模计算系统%故障%容错%断点续算
大規模計算繫統%故障%容錯%斷點續算
대규모계산계통%고장%용착%단점속산
Large scale computing system%Fault%Fault tolerance%Checkpoint restart
本文围绕国内外若干大规模计算系统的运行稳定性状况展开调研:首先根据若干典型系统的故障数据,从故障模式、故障特征方面对目前实际生产性系统的稳定性进行分析;然后,在总结目前系统级容错研究思路的基础上,分析了未来更大规模计算系统容错机制的挑战及可能的解决方案.
本文圍繞國內外若榦大規模計算繫統的運行穩定性狀況展開調研:首先根據若榦典型繫統的故障數據,從故障模式、故障特徵方麵對目前實際生產性繫統的穩定性進行分析;然後,在總結目前繫統級容錯研究思路的基礎上,分析瞭未來更大規模計算繫統容錯機製的挑戰及可能的解決方案.
본문위요국내외약간대규모계산계통적운행은정성상황전개조연:수선근거약간전형계통적고장수거,종고장모식、고장특정방면대목전실제생산성계통적은정성진행분석;연후,재총결목전계통급용착연구사로적기출상,분석료미래경대규모계산계통용착궤제적도전급가능적해결방안.
The running stability of several large scale computing systems is discussed. First, we summaries the main fault models and features according to the public fault data. Second, based on the survey of system fault tolerance research, the challenge and likely mechanisms for fault tolerance of more large scale computing systems is introduced.