科研信息化技术与应用
科研信息化技術與應用
과연신식화기술여응용
E-science Technology & Application
2013年
4期
76-81
,共6页
高性能计算系统%集群系统%可用性检测
高性能計算繫統%集群繫統%可用性檢測
고성능계산계통%집군계통%가용성검측
High Performance Computing system%cluster system%monitoring performance
本文针对高性能计算机系统在启动/重新启动之后的可用性和健康度的检测方面提出了一套检测标准,这一标准流程自系统启动/重新启动开始,至系统所提供的相关高性能计算应用服务完备为止,包括一系列标准行为以及相应的检测模块。据此设计实现了一套针对曙光5000A超级计算机的检测系统并取得了良好的效果。
本文針對高性能計算機繫統在啟動/重新啟動之後的可用性和健康度的檢測方麵提齣瞭一套檢測標準,這一標準流程自繫統啟動/重新啟動開始,至繫統所提供的相關高性能計算應用服務完備為止,包括一繫列標準行為以及相應的檢測模塊。據此設計實現瞭一套針對曙光5000A超級計算機的檢測繫統併取得瞭良好的效果。
본문침대고성능계산궤계통재계동/중신계동지후적가용성화건강도적검측방면제출료일투검측표준,저일표준류정자계통계동/중신계동개시,지계통소제공적상관고성능계산응용복무완비위지,포괄일계렬표준행위이급상응적검측모괴。거차설계실현료일투침대서광5000A초급계산궤적검측계통병취득료량호적효과。
To ensure that the HPC system is in normal operation and well functioning after system initialization, we proposed a method to monitor the performance of HPC system in this paper. The monitoring system contains several testing modules, the monitoring process started at the beginning of the HPC system initialization, and ends before notifying users that they can login and submit their jobs. Based on the proposed method, we designed and implemented a monitoring system for Dawning 5000A supercomputer, and achieved good testing results.