게시일:
2026년 5월 27일
Amazon SageMaker HyperPod은 Slurm 오케스트레이션을 사용하는 클러스터에 대한 최소 용량 요구 사항(MinCount)을 지원합니다. 지속적인 프로비저닝을 통해는 HyperPod가 클러스터에 사용 가능한 부분적인 용량을 제공하여 AI/ML 작업을 빠르게 시작할 수 있게 하고, 동시에 백그라운드에서 남은 인스턴스를 비동기적으로 제공을 계속합니다. 이는 유연성을 제공하지만, 일부 학습 작업 부하는 효과적으로 시작할 수 있도록 보장된 최소 노드 수를 요구합니다. MinCount는 인스턴스 그룹이 InService 상태로 전환되기 전에 성공적으로 제공되어야 하는 인스턴스의 최소 수를 지정할 수 있게 하여, 클러스터가 작업 스케줄링에 사용할 수 있는 시점에 대한 더 많은 제어를 제공합니다.
이는 PyTorch FSDP, Megatron-LM 또는 NVIDIA NeMo와 같은 프레임워크를 사용하는 분산 훈련 작업에 특히 유용합니다. 여기서 훈련 작업은 일반적으로 고정된 수의 참여 노드로 구성되며, 부분 클러스터 용량으로 효율적이거나 올바르게 시작하지 못할 수 있습니다. 또한 SLA 또는 비용 효율성 목표를 달성하기 전에 훈련 실행에 대한 노드를 확보해야 하는 팀들에게도 도움이 됩니다.
CreateCluster 또는 UpdateCluster API 요청에서 MinInstanceCount를 지정하여 인스턴스 그룹에 최소 용량 임계값을 설정할 수 있습니다. 임계값이 충족될 때까지 인스턴스 그룹은 Creating 또는 Updating 상태를 유지하며, 그 후 InService 상태로 전환되고 노드는 Slurm 작업 스케줄링에 사용 가능해집니다. HyperPod는 MinCount를 초과하여 추가 인스턴스를 계속 시작하며, 목표 수에 도달할 때까지 계속됩니다. MinCount를 3시간 이내에 만족시킬 수 없으면 시스템은 인스턴스 그룹을 마지막으로 알려진 좋은 상태로 자동으로 롤백합니다.
Slurm 클러스터의 지속적인 프로비저닝에 대한 MinCount는 Amazon SageMaker HyperPod이 지원되는 모든 AWS 리전에서 제공됩니다. 클러스터의 최소 용량 요구 사항을 지정하려면, Amazon SageMaker AI 문서의 최소 용량 요구 사항 (MinCount)를 참조하세요.












