惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

V
Vulnerabilities – Threatpost
P
Proofpoint News Feed
The Hacker News
The Hacker News
Know Your Adversary
Know Your Adversary
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
T
Tenable Blog
AWS News Blog
AWS News Blog
S
Securelist
T
Threatpost
C
Cybersecurity and Infrastructure Security Agency CISA
IT之家
IT之家
腾讯CDC
WordPress大学
WordPress大学
Spread Privacy
Spread Privacy
C
Check Point Blog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Engineering at Meta
Engineering at Meta
Latest news
Latest news
A
About on SuperTechFans
The Register - Security
The Register - Security
L
LINUX DO - 热门话题
T
The Exploit Database - CXSecurity.com
C
Cisco Blogs
T
Tailwind CSS Blog
Simon Willison's Weblog
Simon Willison's Weblog
阮一峰的网络日志
阮一峰的网络日志
MyScale Blog
MyScale Blog
大猫的无限游戏
大猫的无限游戏
T
Tor Project blog
L
Lohrmann on Cybersecurity
G
GRAHAM CLULEY
B
Blog RSS Feed
Scott Helme
Scott Helme
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
NISL@THU
NISL@THU
P
Privacy International News Feed
Security Latest
Security Latest
Recorded Future
Recorded Future
L
LangChain Blog
Cyberwarzone
Cyberwarzone
C
Cyber Attacks, Cyber Crime and Cyber Security
C
CXSECURITY Database RSS Feed - CXSecurity.com
博客园 - 聂微东
Google DeepMind News
Google DeepMind News
Last Week in AI
Last Week in AI
Apple Machine Learning Research
Apple Machine Learning Research
F
Fortinet All Blogs
O
OpenAI News
T
Threat Research - Cisco Blogs
Blog — PlanetScale
Blog — PlanetScale

InfoQ - 促进软件开发领域知识与创新的传播

Meta 收购 Manus 这事儿泡汤了 5.5万 Star 开源项目 Ghostty 被迫出走,GitHub 正在终结一代技术人的乌托邦 Slack 长时运行多智能体系统的上下文管理方案 从 T+1 到分钟级:金城银行基于 Apache Doris 构建高可靠、强一致的实时数据平台 谷歌云推出 Agents CLI,简化 AI 智能体开发全流程 Claude官方击穿高薪、高学历的安全防线!Anthropic点名10大高危职业,但有群人暂时稳了 亚马逊云科技终止 WorkMail 服务,并将 App Runner 转入维护模式 OPPO小布记忆:全模态碎片化内容的理解与智能整理实践|AICon上海 模力工场038周AI应用周榜:工具在消失,工作流在出现 Akamai CEO Tom Leighton:Agent 时代来临,云基础设施正从“中心化”转向“分布式边缘” 日均数百亿入库背后:从“人肉调度”到K8s弹性架构,度小满金融基于OceanBase重构入库架构实践 百度文库网盘发布GenFlow 4.0:月活用户超1亿,要把网盘变成全端AI工作台 Altman 投的 Agent 终端 Warp 开源了!斩获3.5万star 哪些客户需要拒, 敢让龙虾决定吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 从开发到生产:为什么越来越多的机器学习团队纷纷迁移到 Snowflake | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 探索多智能体工作流:LangGraph Snowflake Cortex AI | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 腾讯云分布式缓存数据库:AI Agent - 从提示词工程到 Harness 工程 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 基于 Streamlit 为 CSV 数据构建分析智能体 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 AI 智能体:告别文档缺漏 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 构建 AI 驱动的数据管道:深度探讨 Snowflake Openflow 与非结构化数据 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 云端太贵、本地不够聪明,英特尔押注“端云混合AI”:智能体PC会替人完成工作 不到10%的存储投入,可能拖垮90%的GPU投资!IBM把AI Agent塞进存储系统,算清企业最容易忽略的一笔账 Snowpark 上手实战 | BUILD 2025_大数据_王玮_InfoQ精选视频 ClickHouse + Langfuse,构建 Agent 可观测基石 腾讯云分布式缓存数据库:Cluster Proxy 共享连接架构深度解析 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 AI 写代码太烧钱了:Copilot、Claude 一起涨价,不如把程序员请回来? 英特尔发布至强600系列工作站处理器与锐炫Pro B70 GPU,全新AI工作站来了 腾讯云分布式缓存数据库:从 Redis 到 Valkey - 开源社区如何快速创新 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 印奇这次要“从0重做”智驾模型!首谈阶跃和千里双公司布局:中国AI商业闭环要靠车跑出来 从Cursor返聘归来,90后华裔女高管带Claude开启日更模式:token成本比工程师工资低多了! 从 Coding 到 Agent:QCon 北京 2026 全景复盘,优秀出品人 & 明星讲师名单揭晓 全链路支撑大模型国产化“Day 0适配”,商汤大装置构建全栈能力底座 凌晨,OpenAI 与亚马逊云科技史上最大联合发布来了 HashiCorp Vault 2.0 发布:引入新身份联邦机制,迈入 IBM 生命周期体系 Yelp 实现超 1,000 个 Cassandra 节点零停机升级 写了 17 年开源代码,我为什么认为 Coding Agents 堆功能是在瞎折腾? 基于 Apache Camel 编排智能体与多模态 AI 管道 面向智能体与人类用户的AI记忆系统:架构设计与核心场景实践|AICon上海 Anthropic 推出 Managed Agents,简化 AI 代理部署流程 阿里HappyHorse开启灰测,720P视频生成低至0.44元/秒 讯飞联合清华团队押注量子AI:不看营收、不设KPI,一群“无人区”科学家,抢夺下代AI算力入口 小米万亿模型全面开源:MIT 协议、1M 上下文,但还是打不过 DeepSeek Cortex Code 入门指南:面向数据工程师的实践路径 | 技术实践 openJiuwen社区首发Team Skills,定义Coordination Engineering新范式 用 Snowflake Cortex Agents 释放结构化数据的最大价值 | 技术实践 Grafana 利用 Kafka 对 Loki 进行了架构重构,并发布了一款命令行工具,旨在将可观测性引入编码代理 ClickHouse重构全文索引:对象存储上跑出高性能 Full-Text Search 可观测性和遥测技术如何提升软件工程实践 Dropbox 与 GitHub 合作,将单体库大小从 87GB 缩减至 20GB Agent 的下一站:基于长期记忆系统 EverOS 的自我演进|AICon上海 同一赛道,四种收费:Agent 控制层(Harness)开始分裂 Cloudflare Sandboxes 正式发布,为 AI 代理提供持久化隔离环境 Agent 的“记忆断片”困局,该怎么破?_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选视频 数据分析师如何快速建立在 AI 时代最值钱的能力:一份可落地的行动路线图 摩尔线程最新财报:研发占比超86%,万卡级大规模智算集群落地 当云区域失效:地缘动荡环境下的高可用重构 Slack 重构通知系统,设置参与度提升 5 倍 智能体工程的隐性技术债务 “我把所有模型都换成了DeepSeek V4”:月账单将降 90%,效果还更好 阿里云智能集团高级技术专家刘少伟已确认出席AICon上海站,并分享如何构建企业 Agent 的自动化行动架构 构建生产就绪的 tRPC API:Apollo Federation 的 TypeScript 替代方案 Anthropic推出面向Claude Code的基于智能体的代码审查功能 北京车展直击:斑马智能甩出车载Agent短剧,比亚迪率先落地,AI让智能座舱又热起来了 Snowflake 作为智能体运行时:从静态管道迈向自主数据系统 | 技术实践 Snowflake 上的本体体系:基于 Cortex Code 能力实现从架构到部署 | 技术实践 Cloudflare 公布 MCP 架构方案,应对企业面临的安全与治理风险 复杂的项目管理怎么做到「AI 友好」?飞书项目用「开放」给出答案 Snowflake Cortex Code 的规范驱动开发:将 SDLC 方法论引入 AI 辅助工作流 | 技术实践 Copilot 不让注册了:从“随便用”到“全面限”,agent 把原有订价模型顶穿了 当互联网用AI卷效率时,这家公司先问了一连串“能不能” Meta 开始记录员工每一次点击:AI 要接管工作,先监控会工作的人 Meta“Token榜”逼疯打工人,一夜烧掉公司几万刀!AI时代Token焦虑越来越离谱 智源FlagOS完成DeepSeek-V4-Flash在八款芯片Day0适配,实现三重技术突破 DeepSeek V4 重磅开源!首次打通华为Ascend,也没丢掉英伟达,百万上下文夺回国产模型话语权 李志飞的“新实验”:当超级个体撞上真实组织 GPT-5.5 登顶时刻,Anthropic 亲口承认 Claude 变笨了!网友群嘲:太敷衍 那些没空写的小需求,龙虾真能做吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 从 Pandas 到生产:使用任意 IDE 进行可扩展的 ML 数据管道与分布式处理 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 pnpm 11 候选版本发布,带来 ESM 分发、供应链默认设置以及新的存储格式 银行业PDF表格提取方案重构:基于Java的分层方案 GPT-5.5 赢了 Opus 4.7 和 Mythos?奥特曼晒黄仁勋内部信:英伟达全员用上 Codex! Cloudflare 推出 Think:一款面向 AI 代理的持久化运行时 1850亿美元天价支出、75%代码由AI生成!谷歌正式宣告:全面转向智能体工作流 xAI落后太多,马斯克“开大”重金求购Cursor,100亿美金“分手费”都敢签! Pulumi 新增对 Bun 运行时的全面支持 姚顺雨腾讯模型首秀!不卷参数只做 “听话打工人”,Hy3 preview登场 | 附实测 老板让你“忽悠”投资人,你敢发给龙虾吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 Gemini CLI 引入子代理机制,实现任务委派与并行代理工作流 清华系团队星工聚将完成数千万天使轮融资,轮式机器人拿下头部制造企业亿级大单 Pretext.js 绕过 DOM 布局重排,实现 120 FPS 的高级交互体验 靠“AI 云”爆红的 Vercel,栽在一个第三方AI工具手里!IPO前夕遭黑,200万美元赎金谈崩? 高能研讨会|端侧 AI 正在重写实时感知效率上限_AI&大模型_王玮_InfoQ精选视频 2050大会看这篇就够了|报名、交通食宿指引大全 Java 近期资讯:OpenJDK JEP、Jakarta EE 12、Spring Framework、Micrometer、Camel、JBang 金融智能的架构编排:基于 Snowflake Cortex Agents 实现结构化与非结构化数据统一分析 | 技术实践 在AK大神爆火的任务里,摸清国产AI真实水平 百灵Ling-2.6-flash 正式发布:高 Token 效率,以 1/10 消耗实现 SOTA 级 Agent 能力 当 PM 懂AI,当技术懂产品:AI 时代产品力的双向进化|PM x AI产品力领航者大会即将开幕 为 AI 智能体设计记忆机制:揭秘 LinkedIn 的认知记忆智能体 获奖名单公布|2026主题征文第一期|分享你最有价值的龙虾场景与核心 Skill_热门活动_InfoQ写作社区官方_InfoQ写作社区
黄仁勋宣布 Rubin 全面投产,4万名工程师参与构建!史上最强CPU同步亮相
李冬梅 · 2026-06-03 · via InfoQ - 促进软件开发领域知识与创新的传播

昨天,在中国台北英伟达 GTC 大会上,英伟达 CEO 黄仁勋再次将话题聚焦于 AI 产业的发展方向。

与两年前重点讨论生成式 AI 浪潮不同,这一次黄仁勋给出了一个新的判断:

“生成式 AI 已经到来,实用 AI 已经到来。”

实用 AI 时代已经到来

在他看来,过去几年 AI 行业最大的变化,不是模型参数规模继续增长,而是 AI 已经开始成为真正的生产工具,并直接影响经济活动。

为了说明这一变化,黄仁勋首先展示了一组来自代码托管平台 GitHub 的数据。他指出,软件开发是生成式 AI 最早落地的领域之一,也是全球最庞大的知识工作者群体之一。目前全球约有 3000 万至 400 万名专业软件工程师依靠编程工作,此外还有数亿学生和业余开发者参与其中。

在他的演讲中,GitHub 代码提交量被作为衡量 AI 生产力变化的重要指标:

  • 2023 年,代码提交量约为 3 亿次;

  • 2024 年增长至 4 亿次;

  • 2025 年达到 5 亿次;

  • 而 2026 年前几个月的数据已经接近此前水平的数倍增长。

黄仁勋认为,这些数字反映出 AI 辅助编程工具正在显著提升软件开发效率。

“全世界的软件工程师创造着大约 3 万亿美元的薪酬价值。”他说,“而这些软件又进一步支撑着全球接近 100 万亿美元规模的经济活动。”

按照他的推算,如果 AI 能够将软件开发者的生产效率提升数倍,那么由此释放出的经济价值也将远远超出软件行业本身。

近年来,随着代码生成工具快速发展,“程序员是否会被 AI 取代”一直是行业争论的焦点。对此,黄仁勋在演讲中给出了明确回应。

他认为,AI 的发展并不会减少软件工程师数量,反而会刺激企业招聘更多开发者。逻辑很简单:如果一名工程师在 AI 辅助下能够创造更高的产出,那么企业更倾向于扩大研发投入,而不是削减研发团队规模。

“有人说 AI 会减少就业,那完全是胡说八道。”黄仁勋表示。

在他看来,真正决定就业规模的不是单位劳动力成本,而是单位劳动力创造价值的能力。当软件工程师能够借助 AI 完成更多工作时,市场对软件和数字化能力的需求也会进一步扩大。

黄仁勋随后把话题转向 AI 基础设施。他指出,随着 AI 从实验室走向实际生产环境,行业关注点已经从模型能力转向 Token 产出能力。

过去,Token 只是模型运行过程中的技术指标;而现在,Token 已经成为能够直接创造收入的单位。换句话说:AI 公司生产的不是传统意义上的软件产品,而是持续生成的 Token。

谁能够以更低成本、更高效率生成更多 Token,谁就拥有更强的商业竞争力。

“因为 Token 现在已成为盈利单位——Token 现在是能够带来收入的盈利单位。正因为现在可以盈利,AI 公司想要建造更多的 Token,生成更多的 Token,建设更多的 AI 工厂,这就是为什么中国台湾的算力需求猛增的原因。也正因如此,你们所有人都如此忙碌,你们的业务都做得这么好。事实上,看看你们的一些股价就知道了。”黄仁勋说。

这也是为什么全球范围内的数据中心建设持续升温,以及中国台湾地区 AI 算力需求快速增长的重要原因。

在他的描述中,AI 工厂(AI Factory)正逐渐取代传统数据中心,成为新一轮计算基础设施建设的核心。

从应用程序时代进入智能体时代

不过,在黄仁勋看来,更大的变化并不只是模型性能提升,而是计算范式本身正在发生改变。

过去几十年里,计算机遵循的是:应用程序 → 代码 → 操作系统,用户通过点击界面、输入命令完成任务。

而在 AI 时代,新的架构正在形成:智能体(Agent) → 大语言模型 → 工具系统。

黄仁勋展示了一张典型 Agent 系统架构图。

在这一架构中,大语言模型负责理解问题、推理和规划;外围框架则负责管理上下文、调用工具、协调任务执行,并管理长期和短期记忆。为了完成任务,智能体可以调用:浏览器、数据库、表格工具、数据分析引擎、CAD 设计软件以及各类企业系统。

整个过程更像是一个数字员工,而非传统软件。“过去我们启动应用程序、点击按钮、输入内容。”黄仁勋说,“未来我们只需要向 AI 解释自己的意图。”然后由 AI 自动编写代码、调用工具并完成任务。

智能体的兴起也引发了另一个争议:如果 AI 能够完成工作,软件公司是否会被淘汰?

黄仁勋的答案恰恰相反。

他认为,Agent 时代将催生数量远超今天的软件系统。原因在于,数字智能体的数量不再受人口规模限制。未来每一个企业流程、每一个业务环节、甚至每一个个人任务,都可能拥有专属智能体。而这些智能体需要大量调用外部工具和服务才能完成工作。

因此,软件不会消失,而是需要以“AI 可调用”的形式重新存在。

“这是软件行业最好的时代之一。”黄仁勋表示。

在这一背景下,NVIDIA 长期积累的 CUDA 生态也将迎来新的机会。

过去,CUDA 库主要面向开发者;如今这些能力可以直接被智能体调用,成为 Agent 执行任务时的工具集。从某种意义上说,黄仁勋试图传递的信息十分明确:生成式 AI 时代讨论的是模型会什么,而实用 AI 时代讨论的是模型能完成什么工作。

当 AI 开始创造收入、推动 GDP 增长,并能够通过智能体调用工具执行复杂任务时,它就不再只是一个聊天机器人,而正在成为新的计算平台。

“NVIDIA 首先是一家软件公司”

在谈完 Agent 带来的计算范式变革后,黄仁勋再次强调了一个他近年来反复提及的观点:

NVIDIA 本质上是一家软件公司。

随后,黄仁勋阐释了 AI 智能体的核心架构与运行逻辑。

他表示,智能体是终极的解耦与分布式计算模型,需要调动海量不同算力单元协同运行。完整的 AI 智能体由模型、框架、工具、技能及运行时五大核心部分构成,各组件分散运行在数据中心不同节点。他将其形象类比为工作个体:模型是智能体的“大脑”,负责思考决策;框架是“身体”,承载整体运行;运行时则如同专属工作室,支撑各类工具落地运作,整套体系以超大规模模式完成算力调度与任务执行。

据其介绍,智能体的每一项工作流程,均拆分至计算机不同模块分步完成。其中,大型语言模型承担思考、上下文处理、环境感知、逻辑推理、方案规划与行动执行等核心智能任务,该过程会批量激活 Grace Blackwell NVLink 72 算力集群。而在智能体调用工具的环节,则由 CPU 承接运算工作,可适配 C 编译器、Python、JavaScript 及各类加速计算工具。

黄仁勋认为,当前 AI 智能体的工具应用能力仍处于初级阶段,未来将实现专业化、熟练化升级。为此,英伟达 CUDA X 库迎来重要升级,全系库产品将配套专属 AI 技能手册,可供 AI 智能体自主学习、掌握工具使用方法,大幅提升智能体解决各类核心行业难题的能力,未来智能体调用 CUDA X 工具的算力价值与应用潜力将得到极大释放。

在整套智能体算力体系中,各类硬件与功能模块分工明确。工具运算任务依托 CPU、GPU、大模型协同完成;安全防护框架部署在 CPU 与英伟达 BlueField DPU 安全处理器之上,全方位保障运行安全;整体任务的调度编排工作则统一由 CPU 主导落地,形成层级清晰、分工明确的异构计算体系。

演讲中,黄仁勋重点提及 AI 计算的核心痛点——内存系统。他表示,智能体的工作记忆依托 KV 缓存实现,涵盖记忆留存、数据压缩、信息检索、结构化与非结构化数据匹配,以及各类数据的逻辑关系梳理、本体关联分析等复杂操作,整体处理流程难度极高、复杂度空前。他预判,AI 专属内存系统的迭代升级,将推动全球存储体系迎来颠覆性革命。

对比传统软件运行模式,黄仁勋强调,AI 智能体代表的全新计算范式具备本质差异。过往软件多为单一二进制文件适配单一操作系统的集中式运行模式,而智能体采用解耦、分布式、异构的全新计算逻辑,这也是英伟达倾力研发下一代 Vera Rubin 平台的核心动因。

针对全新的 Vera Rubin 平台,黄仁勋着重澄清,其绝非单一芯片或普通 GPU 产品,而是一套端到端的完整革命性系统。该平台以 GPU 为核心起点,整合 GPU、Vera、NVLink 72 核心硬件,依托多颗 CPU 完成全局任务编排,搭配迭代升级的革命性存储系统,构建全链路算力底座。同时,平台集成 CX-9 硬件、DOCA 软件栈及内置安全处理器,可实现数据静态、传输、使用全流程加密,依托机密计算架构全方位保护高价值 AI 模型数据安全。

黄仁勋直言,Vera Rubin 是英伟达发展史上野心最大的研发项目,公司全体四万名工程师全员参与项目攻坚,同时汇聚行业合作伙伴力量共同落地,是一套经过全方位打磨、从零重构的极致复杂系统。他坦言,英伟达早已完成从单一 GPU 厂商向全栈系统厂商的战略转型,当前推出的 Vera Rubin 系统,是行业迄今为止设计最复杂、体系最完整的 AI 算力系统。

谈及产业终极需求与企业转型方向,黄仁勋表示,客户与合作伙伴的核心诉求并非单纯获取计算机硬件,而是搭建成熟高效的 AI 工厂。基于这一行业趋势,英伟达正在开启新一轮战略转型。目前英伟达核心技术已全面落地基础设施级应用场景,同时联动发电厂、冷却系统、电网供应商等各类工业生态伙伴,构建完整 AI 产业生态。

未来英伟达将持续打造全栈式算力系统,为全球客户搭建规模化、高性能的 AI 基础设施提供核心支撑。

值得注意的是,在此次演讲中,黄仁勋详细地阐释了英伟达全新的产业定位,正式提出“AI 工厂生态新范式”,明确英伟达的发展重心已从传统计算生态,全面升级为服务千亿级 AI 基建的工厂化生态体系。

黄仁勋区分了英伟达新旧两大生态形态。过往英伟达以计算生态为核心,将自身计算层、软件及计算栈深度集成至各类企业平台与第三方库中,广泛赋能各行各业的数字化算力需求。

而当下全新打造的 AI 工厂生态,形成了清晰的上下游产业闭环:行业合作伙伴是英伟达的上游基础支撑,英伟达则依托自身全栈技术能力,向下游输出完整 AI 工厂生态体系,核心目标不再是单纯输出 GPU 芯片或算力系统,而是助力客户搭建超复杂、超大规模的 AI 工厂基础设施。

他直言,AI 工厂已进入超高投入、超高门槛的规模化落地阶段。当前单座 1 吉瓦(GW)级别的 AI 工厂,建设成本持续攀升,从最初的 200 亿至 400 亿美元,现已上涨至 500 亿至 600 亿美元,未来很快将突破 800 亿甚至 1000 亿美元。千亿级别的单项目投入,意味着 AI 工厂对落地稳定性、运行可靠性有着极致要求,必须实现一次建成、即刻正常投产,其资本投入成本与系统构建复杂度均达到行业前所未有的水平。

针对超高复杂度的 AI 工厂建设难题,英伟达依托 Omniverse 数字仿真能力实现全流程革新。不同于传统计算机研发模式——先设计芯片、再在设备内模拟系统运行,如今英伟达所有 AI 工厂基础设施,均可在 Omniverse 数字平台中提前完成搭建、仿真、测试与优化。通过数字模拟器与数字架构赋能,行业可在破土动工、投入巨额资金前,完成超大规模 AI 系统的全流程推演,彻底规避落地风险,实现行业多年以来的技术落地愿景。

黄仁勋重点介绍了支撑 AI 工厂生态落地的核心体系 DSX,形成与英伟达现有产品矩阵对应的完整基础设施布局。其中,RTX 系列对应 GPU 硬件、DGX 对应一体化算力系统,而全新的 DSX 平台则精准对标 AI 基础设施全场景。依托覆盖系统、软件、全技术栈的核心能力,英伟达能够赋能中小型企业快速搭建世界级 AI 云服务能力。

他以行业案例佐证 DSX 生态的赋能价值,不少曾经的中小型科技企业,在接入英伟达 AI 工厂生态、依托 DSX 体系升级后,实现跨越式增长,典型代表 CoreWeave 估值已攀升至 500 亿至 700 亿美元区间,且依旧保持高速增长态势,充分印证英伟达 AI 工厂新范式的产业赋能潜力。

最近英伟达与 Nebius 合作,它们的增长也同样惊人。这些云中的每一家都拥有令人难以置信的客户:Cursor(软件编码公司)、Black Mountain Labs(图像生成)、World Labs(世界基础模型)、Revolut(领先的金融服务 AI 公司)以及 Shopify。

这里还有另一个例子:Nscale,他们的客户是英国电信(British Telecom)和谷歌(Google)。谷歌正在使用其中一个人工智能云——Thinking Machines,这是一家前沿实验室公司。

这里是韩国的 Naver Cloud,客户包括韩国银行(Bank of Korea)、Hyundai 等众多优秀公司。

在中国台湾,还有 GMI。

然而,以上所有的公司,它们都需要计算栈。黄仁勋表示,下面的这整个技术栈,正是让 NVIDIA 闻名的原因。

他介绍道:“所有的硬件、软件和库,以及我们连接全球第三方开发者生态系统的能力,使得任何人都能建立起一个 AI 云。然而,现在的 AI 云极其复杂。这个是软件版本,这个是计算机科学版本。而资金版本、资产版本就是我之前展示的——它是一个巨大的工厂。仅拥有这种能力是不够的,这正是 NVIDIA 成为一家 AI 基础设施公司的原因。”

Vera Rubin 架构全面投产

在谈及下一代 AI 基础设施建设时,英伟达 CEO 黄仁勋宣布,基于新一代 GPU 平台的 Vera Rubin 架构已经进入全面量产阶段。

黄仁勋表示,当前全球对 AI 算力的需求正以前所未有的速度增长。从数据中心运营商到云服务提供商,再到各类企业客户,整个产业链都在全力提升产能,以满足市场需求。

“实用 AI 已经到来,可盈利的 AI 已经到来。”黄仁勋说。他认为,越来越多企业已经认识到,人工智能不再只是技术展示,而是能够创造实际商业价值的生产工具。在这一背景下,算力正成为限制 AI 发展的关键瓶颈。

为了满足全球激增的需求,英伟达正在推动新一代 AI 基础设施的大规模部署,并协同合作伙伴在世界各地建设 AI 工厂。黄仁勋表示,这也是当前整个产业生态最重要的任务之一。

在供应链建设方面,黄仁勋透露,Vera Rubin 平台所对应的供应链规模已经达到上一代 Grace Blackwell 平台的两倍。与此同时,生产效率也获得显著提升。过去组装一套 Grace Blackwell 机架需要约两个小时,而如今这一过程已经缩短至五分钟。

“这不仅意味着更高的产能,也意味着更快的交付速度。”黄仁勋表示,面对持续增长的市场需求,供应链各环节都在不断扩大生产规模、提高制造效率。

他介绍,为支持 Grace Blackwell 平台量产,产业链此前已经投入数百万平方英尺的生产设施。而目前,这些合作伙伴正在进一步扩充产能,为 Vera Rubin 的大规模部署做好准备。

演讲最后,黄仁勋特别向供应链合作伙伴表达感谢。他表示,Vera Rubin 能够顺利进入全面量产阶段,离不开整个产业生态系统的共同努力。

“我要感谢你们所有人。”黄仁勋说,“Vera Rubin 现已全面投产。”

在介绍 Vera Rubin 架构时,黄仁勋将其定义为一套面向智能体(Agent)时代打造的计算系统,而不仅仅是一台运行 AI 模型的超级计算机。

他表示,随着 AI 从模型训练、推理逐步迈向智能体阶段,计算需求正在发生根本变化。智能体需要频繁调用工具、访问数据库、与外部系统实时交互,因此对延迟、带宽和系统协同能力提出了更高要求。为此,Vera Rubin 采用了全新的系统设计,将 CPU、GPU、网络、存储和安全模块深度整合,形成面向智能体工作负载的完整基础设施平台。

黄仁勋特别展示了 Vera Rubin NVLink 72 系统。他介绍,相比上一代产品主要面向预训练和推理场景,Vera Rubin 进一步针对智能体推理进行了优化。通过 NVLink 72 互连架构以及全新的系统设计,设备内部不再需要大量线缆和复杂连接结构,不仅提升了可靠性,也显著降低了部署和维护成本。

Vera CPU 重磅登场

除了 GPU 系统外,英伟达还同步推出了专为 AI 时代设计的 Vera CPU。黄仁勋认为,传统 CPU 主要服务于人类用户,而未来将出现数十亿个智能体,它们对响应速度几乎没有容忍空间。因此,新的 CPU 架构必须在单线程性能、带宽、数据传输效率以及能效方面进行全面优化。

按照英伟达的规划,Vera CPU 将承担智能体编排、模型调度、工具调用、数据库访问以及存储管理等任务,与 GPU 共同构成未来 AI 工厂的核心基础设施。黄仁勋表示,随着智能体成为下一阶段 AI 发展的重要方向,计算系统也正在从“为模型设计”转向“为智能体设计”。

在谈到新一代 Vera CPU 时,黄仁勋表示,英伟达已经顺利完成了从传统 x86 CPU 架构向 Grace 架构的过渡,这为 Vera 的推广奠定了基础。

他指出,目前全球主要数据中心、云服务商以及与英伟达合作的 AI 企业,都已经完成了对 Grace 平台的认证,相关软件栈、安全体系和开发环境也已完成适配。在此基础上,Vera 的部署门槛将大幅降低。

黄仁勋认为,Vera 有望成为针对智能体(Agent)工作负载优化程度最高的 CPU 之一。原因在于,它从设计之初便与 Vera Rubin 系统协同开发,面向智能体推理、工具调用、数据库访问和实时交互等新型 AI 任务进行了针对性优化。

为了展示性能提升,黄仁勋公布了多个实际工作负载测试结果。其中,在企业广泛使用的 SQL 数据库处理场景中,Vera CPU 的性能达到现有平台的约 3 倍。

在实时流处理场景下,例如金融交易系统、工业遥测监控等需要持续处理海量数据流的应用中,性能提升最高可达 6 倍。

黄仁勋表示,CPU 领域通常以个位数百分比的性能提升作为重要突破,而在真实业务负载中实现数倍级增长并不常见。这些提升主要来自更高的单线程性能、更大的内存和 I/O 带宽,以及更快的核心间数据传输能力。

在他看来,智能体正在成为继云计算、移动互联网之后的新一代计算负载,而现有 CPU 大多是围绕人类用户设计的。未来,随着智能体数量持续增长,对低延迟和高响应速度的需求也将进一步提升。

“过去我们为人类构建 CPU,现在我们开始为智能体构建 CPU。”黄仁勋表示。围绕 Vera 展开的新生态正在形成,包括 ODM 厂商、服务器制造商和企业客户在内的产业链伙伴已经开始布局这一市场。英伟达希望借此推动一个全新的计算平台时代——面向智能体的 CPU 市场。

开源 Nemotron 3 Ultra,全球首个 SSM 与 MoE 相结合的混合架构

在介绍企业级智能体生态时,黄仁勋宣布,英伟达正式推出新一代开源大模型 Nemotron 3 Ultra,并将其定位为企业构建专属智能体的重要基础模型。

黄仁勋表示,未来企业将雇用大量智能体协助完成研发、验证、仿真和运营等工作。以 EDA 软件厂商 Cadence Design Systems 为例,其正在利用英伟达技术打造面向芯片设计流程的专属超级智能体,通过调用仿真器、验证器和形式验证工具,加速芯片开发周期。

作为这一生态的底座,Nemotron 3 Ultra 采用了全球首个 SSM(状态空间模型)与 MoE(混合专家)相结合的混合架构。黄仁勋透露,相比现有主流开源模型,Nemotron 3 Ultra 推理速度提升 5 倍,同时总体运行成本降低 30%。

除了模型本身,英伟达还同步开放训练数据、训练脚本以及相关工具链。黄仁勋表示,Nemotron 系列基于大规模长程推理、复杂任务求解和工具调用数据集训练而成,开发者不仅可以使用模型,还能够在此基础上继续训练、微调并构建专属智能体系统。

目前,英伟达已经与 CrowdStrike、Salesforce、Palantir Technologies、SAP、ServiceNow 等企业展开合作,推动智能体在企业软件、网络安全、数据分析和业务流程管理等场景中的落地应用。

黄仁勋同时透露,Nemotron 3 Ultra 已经发布,而下一代 Nemotron 4 模型也正在研发之中。

与微软联手重新定义 PC

在演讲的后半程,黄仁勋宣布,英伟达正与 Microsoft 联手重新定义个人电脑(PC)。

黄仁勋回顾了过去 40 年的 PC 发展历程。他表示,从 Windows 3.1 到 Windows 95,微软建立起了现代 PC 产业的基础架构,通过开放硬件生态、驱动程序体系以及统一的软件接口,让 PC 从企业设备走向大众消费市场,并成为全球最普及的计算平台之一。

如今,随着 AI 时代到来,英伟达和微软希望推动新一轮 PC 架构变革。黄仁勋透露,双方已经为此合作了三年,对 PC 的底层工作方式进行了重新设计,以适应智能体(Agent)时代的计算需求。

按照他的设想,未来的 PC 不再只是运行应用程序的终端设备,而将内置能够理解用户、与用户对话并自主完成任务的 AI 智能体。例如,智能体可以帮助用户整理文件、检索资料、完成研究工作,甚至根据用户需求主动执行复杂任务。

黄仁勋认为,这种变化将带来 PC 软件架构的重构。过去由应用程序承担的大量功能,未来将逐步由智能体完成。与此同时,大语言模型将成为新一代 PC 的重要基础组件,承担语言理解、视觉识别、音视频生成以及任务执行等能力,成为连接用户与计算资源的核心入口。

他透露,自己将与 Satya Nadella 共同介绍双方过去三年的合作成果,并进一步展示面向智能体时代的新一代 PC 平台。