






















本文永久链接 – https://tonybai.com/2026/05/26/why-nvidia-chose-go-to-rewrite-their-ai-infrastructure
当大家都在谈论 CUDA、Python 和 AI 框架时,NVIDIA 的工程团队正在悄悄用 Go 构建支撑整个 AI 云平台的底层基础设施。从 GPU 函数平台 NVCF,到 AI 集群运行时 AICR,再到已经有 1.8k Star 的分布式存储 AIStore,Go 语言已经成为 NVIDIA 内部 AI 基础设施的核心技术栈。这不是偶然,而是一个精心设计的技术选型。
大家好,我是Tony Bai。
2026 年 4 月,NVIDIA 悄悄开源了一个 repo:github.com/nvidia/nvcf。
没有大张旗鼓的发布会,没有 Jensen Huang 的皮夹克登场。但如果你打开这个 repo 看一眼语言构成,数字会让你一惊:
Go 占比 88.5%。
这不是一个小工具,这是驱动 build.nvidia.com、NVIDIA DGX Cloud 推理服务和全球 GPU 云合作伙伴(CoreWeave、Oracle Cloud 等)整个控制平面的核心平台。
然后你再看 AICR(AI Cluster Runtime):Go 51.1%。
再看 AIStore(面向 AI 的分布式存储):Go 75.2%,1.8k Star,10,219 次 commit,是一个有深度的系统级项目。
NVIDIA 在用 Go 构建 AI 时代的基础设施。而且这个趋势正在加速。

NVCF 全称 NVIDIA Cloud Functions,是一个用于部署、管理和运行 GPU 加速工作负载的平台。你可以把它理解为”GPU 版的 AWS Lambda”——但更贴近生产级 AI 推理场景的设计。
你注册一个 Docker 容器或 Helm Chart,指定 GPU 类型,NVCF 负责处理一切:路由、队列、自动扩缩容、多租户隔离。GPU 云合作商在自己的 Kubernetes 集群上运行 NVIDIA Cluster Agent(NVCA),算力接入 NVCF 控制平面。
2026 年 4 月,NVIDIA 以 Apache 2.0 协议开源了整个平台的完整代码,包括控制平面、调用平面、计算平面、CLI、Helm Charts 和数据库迁移脚本——全部在一个 monorepo 里。之前的 NVIDIA/nvidia-cloud-functions 和 NVIDIA/nvcf-go 两个 repo 已归档,这个新 repo 是唯一的真相来源。

NVCF 的整体架构围绕三个独立可扩展的平面展开,通过 NATS JetStream 连接。
控制平面(Control Plane)
运行在专用 Kubernetes 集群上,负责函数生命周期管理、自动扩缩容决策和密钥管理。核心服务:
调用平面(Invocation Plane)
所有请求的必经之路,Go 在这里是绝对主角:
计算平面(Compute Plane)
每个 GPU 集群运行一个 NVCA(NVIDIA Cluster Agent)Operator。NVCA 将集群注册到控制平面,消费 NATS 消息,管理 Pod 生命周期。
从调用方的 POST /v2/nvcf/pexec/functions/{id} 开始,到响应返回,完整链路如下:
NVCF 解决的最有趣的工程问题,是 GPU 工作负载的 Scale-to-Zero。
传统方案(如 Knative)在 Scale-up 期间请求会面临超时压力或重试。对于加载大型模型可能需要数十秒乃至数分钟的 GPU 推理来说,这个问题会非常严重。
NVCF 的解法是把 NATS JetStream 当做一个持久化请求缓冲区:
请求永远不会被丢弃。 调用方在冷启动时等待更长时间,但请求一定会完成。这是 NATS 持久化消息的直接价值。

搭建一个 GPU 加速的 Kubernetes 集群是出了名的难。内核版本、驱动、容器运行时、Operator、Kubernetes 版本——任何一个环节的细微差异都可能导致难以诊断的问题,而且极难复现。
这些知识以前只存在于 NVIDIA 内部的验证流水线和运维手册里。AICR 把这些知识公开了。
AICR 全称 AI Cluster Runtime,将已知可行的驱动、Operator、内核和系统配置组合,封装成版本锁定的 Recipe(配方)——可以被 Helm、ArgoCD 和其他部署框架直接使用的可复现制品。
一个 Recipe 是针对特定环境的版本锁定配置。你描述你的目标(云厂商、GPU 型号、操作系统、工作负载意图),Recipe 引擎将其与一个经过验证的 Overlay 库进行匹配——从基础默认值到云厂商、加速器、操作系统、工作负载特定调优,自底向上分层组合。
每个 AICR Recipe 具备三个特性:
# 安装 CLI(Go 编译的单一二进制)
curl -sfL https://raw.githubusercontent.com/NVIDIA/aicr/main/install | bash -s --
# 采集集群当前状态快照
aicr snapshot --output snapshot.yaml
# 为你的环境生成经过验证的 Recipe
aicr recipe --service eks --accelerator h100 --os ubuntu \
--intent training --platform kubeflow -o recipe.yaml
# 对比 Recipe 与集群实际状态,找出差异
aicr validate --recipe recipe.yaml --snapshot snapshot.yaml
# 渲染为部署就绪的 Helm Charts
aicr bundle --recipe recipe.yaml -o ./bundles
bundles/ 目录包含按组件分类的 Helm Chart,每个组件附带 values 文件、checksum 和 README。你可以用 helm install 部署,提交到 GitOps 仓库,或使用内置的 ArgoCD 部署器。
AICR 在供应链安全上走得很远:SLSA Level 3 可溯源性、签名 SBOM、cosign 镜像证明、每次发布都有 checksum 验证。这已经是不少大型企业对内部工具的要求,NVIDIA 在开源项目里直接做到了。
代码以 Go 为主(51.1%),使用 golangci 做 lint,goreleaser 做发布,ko 做容器镜像构建。项目已经发布了 54 个版本,活跃度很高。目前支持 Amazon EKS、GKE 和 Kind(自管理),GPU 覆盖 H100 和 GB200,工作负载支持 Kubeflow 训练和 Dynamo 推理。
如果说 NVCF 和 AICR 还是相对新鲜的项目,那 AIStore 则是一个已经经受了时间考验的系统级工程——1.8k Star,240 个 Fork,10,219 次 commit,46 位贡献者。
项目地址:github.com/NVIDIA/aistore
AIStore(AIS)是一个专为 AI 应用构建的轻量分布式存储栈。它是一个弹性集群,可以在运行时扩缩容,支持从单台 Linux 机器到任意规模的裸机集群的任意部署方式。
AIS 的核心差异点:它能原生操作集群内数据和远程数据,而不是把远程数据当成缓存。这对 AI 训练工作负载来说是关键区别——你不需要先把 S3 数据拉下来再训练,AIS 可以透明地处理数据层。
AIStore 75.2% 的代码是 Go,其 Go API 直接被 CLI 和 benchmarking 工具使用。选择 Go 的逻辑很清晰:
把这三个项目放在一起看,NVIDIA 选择 Go 的逻辑变得清晰:
AI 基础设施不同于传统 Web 服务。它需要处理:
这些场景对并发模型的要求极高。Go 的 goroutine 和 channel 机制,让工程师可以用清晰的代码表达复杂的并发逻辑,而不需要像 C++ 那样手动管理线程。
Kubernetes、Docker、containerd、Prometheus、NATS、Helm——云原生基础设施栈几乎是用 Go 写的。NVIDIA 的三个项目全部深度集成 Kubernetes,深度依赖 Operator 模式、Controller Runtime、Helm Chart。选择 Go 意味着可以直接使用这些生态的核心库,而不是跨语言调用的额外复杂度。
aicr、ais CLI 工具都是 Go 编译的单一静态二进制。在需要快速部署到新集群、在 CI/CD 流水线中运行、或者在边缘节点上操作时,这个特性极其实用。
值得注意的是,NVCF 并不是全 Go。高性能热路径(http-invocation、function-autoscaler)用了 Rust,而控制逻辑、网关、代理、认证——这些需要快速迭代、逻辑清晰的组件——用 Go。
这个分工很有意思:Rust 负责极致性能的关键路径,Go 负责需要快速演化的系统逻辑。两种语言各司其职,而不是用一种语言通吃所有场景。
对 Go 开发者
NVIDIA 的这几个 repo 是绝佳的真实世界大型 Go 项目参考:
这三个项目都是 Apache 2.0 或 MIT 开源,代码质量高,有完整的测试和文档。
对 AI 平台工程师
NVIDIA 正在开源 AI 基础设施的核心组件。NVCF 的开源意味着你可以:
- 在私有 GPU 集群上运行与 NVIDIA 云服务相同的调度和路由逻辑
- 审计每一行代码,而不是把平台当成黑盒
- 修改自动扩缩容逻辑、添加 NATS 认证策略、扩展 MiniService controller
AICR 则给了你一个”NVIDIA 认证”的集群配置参考——如果你正在搭建自管理 GPU 集群,AICR 的 Recipe 系统告诉你什么组合是经过验证的。
对技术决策者
当 NVIDIA——一家以 CUDA C++ 闻名的公司——在 AI 基础设施层面系统性地选择 Go,这个信号足够强烈。Go 已经不只是”Google 的语言”或者”云原生工具链的语言”,它正在成为 AI 时代基础设施的核心技术栈之一。
资料链接:
还在为写 Agent 框架频频死循环、上下文爆炸而束手无策?我的新专栏 《从0 开始构建 Agent Harness》 将带你:
扫描下方二维码,开启从 0 开始构建Agent Harness 的实战之旅。

原「Gopher部落」已重装升级为「Go & AI 精进营」知识星球,快来加入星球,开启你的技术跃迁之旅吧!
我们致力于打造一个高品质的 Go 语言深度学习 与 AI 应用探索 平台。在这里,你将获得:
衷心希望「Go & AI 精进营」能成为你学习、进步、交流的港湾。让我们在此相聚,享受技术精进的快乐!欢迎你的加入!

商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

© 2026, bigwhite. 版权所有.
Related posts:
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。