時日:

五月廿七,二零二六年

亞馬遜薩潔馬克 HyperPod 乃支持以 Slurm 織維之集群,其最小容量(MinCount)可續供無間。 續供無間,HyperPod以部分容量供集群,使汝能速启AI/ML之务,而犹异步续供余器于幕后。此虽具变通,然有训习之务,必先保有一定之节点数,方得有效始之。MinCount使汝得指定必成之器数,俟其供毕,则器群乃转至InService之态,使汝得控集群何时可备以调务。

此尤适于分布式训练之业,所用之架若 PyTorch FSDP、Megatron-LM 或 NVIDIA NeMo,其训练之务常配置固定之节点数,或不能以部分之集群效能起之。亦利于团队,欲于投注训练之前,先保有一定之 GPU 数,以应 SLA 或成本之效。

可于 CreateCluster 或 UpdateCluster 之 API 请求中指定 MinInstanceCount,以设实例群之最低容量阈限。实例群将处於 Creating 或 Updating 状态,直至阈限达成,乃转为 InService,节点方可供 Slurm 作业调度之用。HyperPod 继续发起新实例,超越 MinCount,直至目标计数达成。若 MinCount 不可於三时辰内满足,系统将自动回滚实例群至其最后已知良好状态。

Slurm集群之持续供应之MinCount,于Amazon SageMaker HyperPod所支持之AWS全域皆可获。欲知详于指定集群之最低容量需求,请参阅Amazon SageMaker AI文档之最低容量需求(MinCount)