發布於:
2026年5月27日
Amazon SageMaker HyperPod 現在支援使用 Slurm 執行緒管理與持續供應的叢集的最低容量需求 (MinCount)。透過 持續供應,HyperPod 可為叢集提供可用的部分容量,讓您能夠快速啟動您的 AI/ML 負載,同時在背景中非同步地提供剩餘的實例。雖然這提供了靈活性,但某些訓練工作負載在有效啟動之前需要保證最少數量的節點。MinCount 讓您可以指定必須成功提供的最小實例數量,在實例群組切換到 InService 狀態之前,為您提供更大的控制權,讓您的叢集能夠在負載調度時變得可用。
這對於使用 PyTorch FSDP、Megatron-LM 或 NVIDIA NeMo 等框架的分散式訓練工作負載特別有用,其中訓練工作通常配置為固定的參與節點數量,可能無法有效或正確地使用部分集群容量啟動。它也對需要確保基礎 GPU 數量以達到 SLA 或成本效率目標的團隊有益,在承諾進行訓練運行之前。
您可以在 CreateCluster 或 UpdateCluster API 請求中指定 MinInstanceCount,以設定實例群組的最低容量閾值。實例群組會保持 Creating 或 Updating 狀態,直到達到閾值,然後轉變為 InService,並且節點可供 Slurm 執行緒調度使用。HyperPod 會繼續啟動額外的實例,超過 MinCount,直到達到目標數量。如果 MinCount 在 3 小時內無法滿足,系統會自動將實例群組回滾到其最後已知的良好狀態。
Slurm 集群在持續建立中,其 MinCount 功能可在所有支援 Amazon SageMaker HyperPod 的 AWS 地區使用。若要開始指定您集群的最低容量需求,請參閱 Amazon SageMaker AI 文件中的 最低容量需求 (MinCount)。












