Amazon SageMaker HyperPod Slurmクラスタは、継続的なプロビジョニングで最小キャパシティ要件を指定するサポートを提供します

投稿日:

2026年5月27日

Amazon SageMaker HyperPodは、Slurmオーケストレーションを使用するクラスターの最小容量要件（MinCount）を継続的なプロビジョニングでサポートするようになりました。継続的なプロビジョニング、HyperPodはクラスターに利用可能な部分的な容量を提供し、AI/MLジョブを迅速に開始できるようにします。同時に、背景で残りのインスタンスを非同期にプロビジョニングを続けます。これにより柔軟性が得られますが、一部のトレーニングワークロードは効果的に開始する前に保証される最小ノード数が必要です。MinCountは、インスタンスグループがInService状態に移行する前に成功してプロビジョニングされるべき最小インスタンス数を指定するための機能です。これにより、クラスターがジョブスケジューリングに利用可能になるタイミングに対してより大きな制御が得られます。

PyTorch FSDP、Megatron-LM、NVIDIA NeMoなどのフレームワークを使用する分散トレーニングワークロードにおいて特に有用です。これらのトレーニングジョブは通常、参加ノードの固定数で構成され、部分的なクラスターコパシティで効率的かつ正しく開始されないことがあります。SLAやコスト効率の目標を達成するために、トレーニング実行にコミットする前に基準となるGPU数を保証する必要があるチームにも利益があります。

CreateCluster または UpdateCluster APIリクエストで MinInstanceCount を指定して、インスタンスグループの最小キャパシティ閾値を設定できます。閾値が満たされるまで、インスタンスグループは作成中（Creating）または更新中（Updating）の状態を維持し、その後 InService に移行し、ノードが Slurm ジョブスケジューリングに利用可能になります。HyperPod は MinCount を超えて追加のインスタンスを継続的に起動し、目標数に達するまで続けます。MinCount が3時間以内に満たされない場合、システムは自動的にインスタンスグループを最後に正常だった状態にロールバックします。

Slurmクラスタの継続的なプロビジョニングにおけるMinCountは、Amazon SageMaker HyperPodがサポートされているすべてのAWSリージョンで利用可能です。クラスタの最小容量要件を指定する方法について始めるには、Amazon SageMaker AIドキュメントのMinimum capacity requirements (MinCount)を参照してください。

おすすめ購読元

Recent Announcements