












Amazon SageMaker HyperPod 現已支持基於 AMI 的配置,可為 Slurm 集群節點預置生產級環境所需的軟件與配置,從而運行人工智能/機器學習訓練工作負載。用戶無需下載、配置生命週期配置腳本,也無需將該腳本上傳到 Amazon S3。準備集群所需的運維步驟較少,並且無需在節點預置過程中執行生命週期配置腳本,這大大縮短了集群創建時間,使您能夠更快地啟動運行作業。
基於 AMI 的配置包括 Docker、Enroot 和 Pyxis 等必備軟件,以及 Slurm 計費統計、SSH 密鑰生成、Slurm 日誌輪換和用戶主目錄設置等配置。要啟用基於 AMI 的配置,請在使用 CreateCluster API 創建集群時,從實例組配置中省略 LifeCycleConfig 塊,或者在使用 SageMaker AI 控制台時,在自定義設置的生命週期腳本下選擇“無”。要在基於 AMI 的配置基準的基礎上進一步自定義,可以提供擴展腳本,這樣一來,您只需專注要添加的功能和軟件即可,例如用戶配置、可觀測性或 LDAP 集成。
通過 API 和 SageMaker AI 控制台創建集群時,均可配置擴展腳本。藉助 CreateCluster API,可在 LifeCycleConfig 塊中指定新的 OnInitComplete 參數和 SourceS3Uri。通過控制台,可在自定義設置的“S3 中的擴展腳本文件”字段中,為擴展腳本提供 S3 URI。對於需要完全控制預置的高級使用案例,API 和 SageMaker AI 控制台仍完全支持自定義生命週期配置腳本。
這項功能已在提供 SageMaker HyperPod 的所有 AWS 區域推出。要開始使用基於 AMI 的節點生命週期配置創建 HyperPod Slurm 集群,請參閱《SageMaker AI 開發人員指南》中的通過 AWS CLI 開始使用 SageMaker HyperPod 或通過 SageMaker AI 控制台開始使用 SageMaker HyperPod。
此內容由慣性聚合(RSS閱讀器)自動聚合整理,僅供閱讀參考。 原文來自 — 版權歸原作者所有。