惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Engineering at Meta
Engineering at Meta
博客园_首页
WordPress大学
WordPress大学
宝玉的分享
宝玉的分享
罗磊的独立博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
酷 壳 – CoolShell
酷 壳 – CoolShell
O
OpenAI News
阮一峰的网络日志
阮一峰的网络日志
小众软件
小众软件
S
Securelist
博客园 - 叶小钗
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
L
LINUX DO - 热门话题
Jina AI
Jina AI
博客园 - 【当耐特】
C
Cisco Blogs
爱范儿
爱范儿
Scott Helme
Scott Helme
月光博客
月光博客
P
Proofpoint News Feed
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
人人都是产品经理
人人都是产品经理
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
J
Java Code Geeks
T
Tailwind CSS Blog
S
Schneier on Security
D
Darknet – Hacking Tools, Hacker News & Cyber Security
P
Privacy & Cybersecurity Law Blog
T
Threatpost
IT之家
IT之家
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
博客园 - Franky
V
Vulnerabilities – Threatpost
V
Visual Studio Blog
P
Proofpoint News Feed
C
Cyber Attacks, Cyber Crime and Cyber Security
MongoDB | Blog
MongoDB | Blog
Stack Overflow Blog
Stack Overflow Blog
G
Google Developers Blog
T
Tor Project blog
The Hacker News
The Hacker News
NISL@THU
NISL@THU
腾讯CDC
SecWiki News
SecWiki News
有赞技术团队
有赞技术团队
Blog — PlanetScale
Blog — PlanetScale
Application and Cybersecurity Blog
Application and Cybersecurity Blog
Google DeepMind News
Google DeepMind News

InfoQ - 促进软件开发领域知识与创新的传播

Meta 收购 Manus 这事儿泡汤了 5.5万 Star 开源项目 Ghostty 被迫出走,GitHub 正在终结一代技术人的乌托邦 Slack 长时运行多智能体系统的上下文管理方案 从 T+1 到分钟级:金城银行基于 Apache Doris 构建高可靠、强一致的实时数据平台 谷歌云推出 Agents CLI,简化 AI 智能体开发全流程 Claude官方击穿高薪、高学历的安全防线!Anthropic点名10大高危职业,但有群人暂时稳了 亚马逊云科技终止 WorkMail 服务,并将 App Runner 转入维护模式 OPPO小布记忆:全模态碎片化内容的理解与智能整理实践|AICon上海 模力工场038周AI应用周榜:工具在消失,工作流在出现 Akamai CEO Tom Leighton:Agent 时代来临,云基础设施正从“中心化”转向“分布式边缘” 日均数百亿入库背后:从“人肉调度”到K8s弹性架构,度小满金融基于OceanBase重构入库架构实践 百度文库网盘发布GenFlow 4.0:月活用户超1亿,要把网盘变成全端AI工作台 Altman 投的 Agent 终端 Warp 开源了!斩获3.5万star 哪些客户需要拒, 敢让龙虾决定吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 从开发到生产:为什么越来越多的机器学习团队纷纷迁移到 Snowflake | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 探索多智能体工作流:LangGraph Snowflake Cortex AI | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 腾讯云分布式缓存数据库:AI Agent - 从提示词工程到 Harness 工程 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 基于 Streamlit 为 CSV 数据构建分析智能体 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 AI 智能体:告别文档缺漏 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 构建 AI 驱动的数据管道:深度探讨 Snowflake Openflow 与非结构化数据 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 云端太贵、本地不够聪明,英特尔押注“端云混合AI”:智能体PC会替人完成工作 不到10%的存储投入,可能拖垮90%的GPU投资!IBM把AI Agent塞进存储系统,算清企业最容易忽略的一笔账 Snowpark 上手实战 | BUILD 2025_大数据_王玮_InfoQ精选视频 ClickHouse + Langfuse,构建 Agent 可观测基石 腾讯云分布式缓存数据库:Cluster Proxy 共享连接架构深度解析 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 AI 写代码太烧钱了:Copilot、Claude 一起涨价,不如把程序员请回来? 英特尔发布至强600系列工作站处理器与锐炫Pro B70 GPU,全新AI工作站来了 腾讯云分布式缓存数据库:从 Redis 到 Valkey - 开源社区如何快速创新 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 印奇这次要“从0重做”智驾模型!首谈阶跃和千里双公司布局:中国AI商业闭环要靠车跑出来 从Cursor返聘归来,90后华裔女高管带Claude开启日更模式:token成本比工程师工资低多了! 从 Coding 到 Agent:QCon 北京 2026 全景复盘,优秀出品人 & 明星讲师名单揭晓 全链路支撑大模型国产化“Day 0适配”,商汤大装置构建全栈能力底座 凌晨,OpenAI 与亚马逊云科技史上最大联合发布来了 HashiCorp Vault 2.0 发布:引入新身份联邦机制,迈入 IBM 生命周期体系 Yelp 实现超 1,000 个 Cassandra 节点零停机升级 写了 17 年开源代码,我为什么认为 Coding Agents 堆功能是在瞎折腾? 基于 Apache Camel 编排智能体与多模态 AI 管道 面向智能体与人类用户的AI记忆系统:架构设计与核心场景实践|AICon上海 Anthropic 推出 Managed Agents,简化 AI 代理部署流程 阿里HappyHorse开启灰测,720P视频生成低至0.44元/秒 讯飞联合清华团队押注量子AI:不看营收、不设KPI,一群“无人区”科学家,抢夺下代AI算力入口 小米万亿模型全面开源:MIT 协议、1M 上下文,但还是打不过 DeepSeek Cortex Code 入门指南:面向数据工程师的实践路径 | 技术实践 openJiuwen社区首发Team Skills,定义Coordination Engineering新范式 用 Snowflake Cortex Agents 释放结构化数据的最大价值 | 技术实践 Grafana 利用 Kafka 对 Loki 进行了架构重构,并发布了一款命令行工具,旨在将可观测性引入编码代理 ClickHouse重构全文索引:对象存储上跑出高性能 Full-Text Search 可观测性和遥测技术如何提升软件工程实践 Dropbox 与 GitHub 合作,将单体库大小从 87GB 缩减至 20GB Agent 的下一站:基于长期记忆系统 EverOS 的自我演进|AICon上海 同一赛道,四种收费:Agent 控制层(Harness)开始分裂 Cloudflare Sandboxes 正式发布,为 AI 代理提供持久化隔离环境 Agent 的“记忆断片”困局,该怎么破?_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选视频 数据分析师如何快速建立在 AI 时代最值钱的能力:一份可落地的行动路线图 摩尔线程最新财报:研发占比超86%,万卡级大规模智算集群落地 当云区域失效:地缘动荡环境下的高可用重构 Slack 重构通知系统,设置参与度提升 5 倍 智能体工程的隐性技术债务 “我把所有模型都换成了DeepSeek V4”:月账单将降 90%,效果还更好 阿里云智能集团高级技术专家刘少伟已确认出席AICon上海站,并分享如何构建企业 Agent 的自动化行动架构 构建生产就绪的 tRPC API:Apollo Federation 的 TypeScript 替代方案 Anthropic推出面向Claude Code的基于智能体的代码审查功能 北京车展直击:斑马智能甩出车载Agent短剧,比亚迪率先落地,AI让智能座舱又热起来了 Snowflake 作为智能体运行时:从静态管道迈向自主数据系统 | 技术实践 Snowflake 上的本体体系:基于 Cortex Code 能力实现从架构到部署 | 技术实践 Cloudflare 公布 MCP 架构方案,应对企业面临的安全与治理风险 复杂的项目管理怎么做到「AI 友好」?飞书项目用「开放」给出答案 Snowflake Cortex Code 的规范驱动开发:将 SDLC 方法论引入 AI 辅助工作流 | 技术实践 Copilot 不让注册了:从“随便用”到“全面限”,agent 把原有订价模型顶穿了 当互联网用AI卷效率时,这家公司先问了一连串“能不能” Meta 开始记录员工每一次点击:AI 要接管工作,先监控会工作的人 Meta“Token榜”逼疯打工人,一夜烧掉公司几万刀!AI时代Token焦虑越来越离谱 智源FlagOS完成DeepSeek-V4-Flash在八款芯片Day0适配,实现三重技术突破 DeepSeek V4 重磅开源!首次打通华为Ascend,也没丢掉英伟达,百万上下文夺回国产模型话语权 李志飞的“新实验”:当超级个体撞上真实组织 GPT-5.5 登顶时刻,Anthropic 亲口承认 Claude 变笨了!网友群嘲:太敷衍 那些没空写的小需求,龙虾真能做吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 从 Pandas 到生产:使用任意 IDE 进行可扩展的 ML 数据管道与分布式处理 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 pnpm 11 候选版本发布,带来 ESM 分发、供应链默认设置以及新的存储格式 银行业PDF表格提取方案重构:基于Java的分层方案 GPT-5.5 赢了 Opus 4.7 和 Mythos?奥特曼晒黄仁勋内部信:英伟达全员用上 Codex! Cloudflare 推出 Think:一款面向 AI 代理的持久化运行时 1850亿美元天价支出、75%代码由AI生成!谷歌正式宣告:全面转向智能体工作流 xAI落后太多,马斯克“开大”重金求购Cursor,100亿美金“分手费”都敢签! Pulumi 新增对 Bun 运行时的全面支持 姚顺雨腾讯模型首秀!不卷参数只做 “听话打工人”,Hy3 preview登场 | 附实测 老板让你“忽悠”投资人,你敢发给龙虾吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 Gemini CLI 引入子代理机制,实现任务委派与并行代理工作流 清华系团队星工聚将完成数千万天使轮融资,轮式机器人拿下头部制造企业亿级大单 Pretext.js 绕过 DOM 布局重排,实现 120 FPS 的高级交互体验 靠“AI 云”爆红的 Vercel,栽在一个第三方AI工具手里!IPO前夕遭黑,200万美元赎金谈崩? 高能研讨会|端侧 AI 正在重写实时感知效率上限_AI&大模型_王玮_InfoQ精选视频 2050大会看这篇就够了|报名、交通食宿指引大全 Java 近期资讯:OpenJDK JEP、Jakarta EE 12、Spring Framework、Micrometer、Camel、JBang 金融智能的架构编排:基于 Snowflake Cortex Agents 实现结构化与非结构化数据统一分析 | 技术实践 在AK大神爆火的任务里,摸清国产AI真实水平 百灵Ling-2.6-flash 正式发布:高 Token 效率,以 1/10 消耗实现 SOTA 级 Agent 能力 当 PM 懂AI,当技术懂产品:AI 时代产品力的双向进化|PM x AI产品力领航者大会即将开幕 为 AI 智能体设计记忆机制:揭秘 LinkedIn 的认知记忆智能体 获奖名单公布|2026主题征文第一期|分享你最有价值的龙虾场景与核心 Skill_热门活动_InfoQ写作社区官方_InfoQ写作社区
“如果你不用更多Token,就永远逃不出底层”:AI竞赛开始变成资源战争
李冬梅 · 2026-05-06 · via InfoQ - 促进软件开发领域知识与创新的传播

如果把过去两年的 AI 叙事拆开来看,一个趋势已经越来越清晰:真正的瓶颈,正在从“模型能力”转向“资源分配”。

一边是推理成本持续下降、调用门槛几乎被抹平,另一边却是算力、带宽乃至组织内部认知结构的全面紧张——供给看似在爆炸,约束却变得更加隐性而复杂。

也正是在这种“表面过剩、内里稀缺”的张力之下,越来越多一线从业者开始重新审视一个问题:AI 到底在重塑什么,又在抬高什么。

在这样的背景中,一些来自实践一线的信号,比任何宏观判断都更具解释力。

在一档播客栏目中,SemiAnalysis 创始人 Dylan Patel 与主持人展开了一场对话,共同探讨 AI 革命中爆发式的供需动态。Dylan 分享了其公司的 Token 开销如何飙升至每年 700 万美元,这彻底改变了他们的生产力,并凸显了一个新时代的到来:在这个时代,执行的成本很低,但高质量的想法却价值连城。

他们深入探讨了 Anthropic 尖端模型(如 Opus 4.7 和 “Mythos”)的影响、半导体供应链中隐藏的瓶颈(包括内存、台积电和 CPU),以及“幻影 GDP”这一经济现象。最后,Dylan 对 AI 快速扩张带来的社会影响分享了大胆预测,包括为什么大规模的反 AI 抗议活动可能就在眼前。

以下为完整访谈内容,经由 InfoQ 翻译 & 整理:

Token 成本疯涨,即将超过员工薪资

主持人:过去很长一段时间里,真正稀缺的是执行力——执行非常非常困难,而想法却很廉价。但现在情况完全反过来了:想法变得廉价而且泛滥,执行却变得极其容易。所以,真正有价值的,只剩下那些能够证明自己“值得投入”的好想法。

你之前跟我讲过一个很惊人的故事,说你们团队今年在 AI token 使用上的变化非常剧烈。能不能再讲一遍?这件事让你对整个世界发生的变化有什么新的理解?

Dylan Patel:去年我们还觉得自己已经算是 AI 的重度用户了。大家都在用 ChatGPT、用各种云服务,公司也基本是“谁需要什么订阅就给什么订阅”,整体开销也就是几万美元量级。

但今年完全不一样了。真正的转折点大概是从 12 月底开始,随着 Anthropic 的 Opus 模型发布。我们公司总裁 Doug 带头推动了一件事——让非技术人员也开始用 AI 写代码。

一开始是工程师在用,但到了 1 月份,使用量开始爆发式增长,一路飙升。后来我们直接和 Anthropic 签了企业协议。到你上次跟我聊的时候,我们的 AI 开销年化大概是 500 万美元,但现在已经涨到 700 万美元了——而且那是上周的数据。

很多开销其实来自“使用本身”。比如一些从来没写过代码的人,现在也在用 Claude 写代码,有的人一天就能花掉几千美元的 token。整体算下来,我们现在一年大概花 700 万美元在 AI 上,而公司的薪资成本大概是 2500 万美元。

也就是说,我们在 AI 上的支出已经超过了薪资的 25%。如果这个趋势继续下去,到今年年底甚至可能超过 100%。这听起来确实有点可怕。

不过幸运的是,我们公司在快速增长,所以还不用在“雇人还是用 AI”之间做取舍。更现实的情况是:我们可以少招很多人,同时把钱投入 AI,然后增长得更快。

但我觉得,很快其他公司就会面对一个现实:如果一个人借助 AI 能完成原本 5 到 15 个人的工作,那企业就会开始考虑裁员。

主持人:你能不能举一些具体的例子?这些投入到底带来了什么样的变化?

Dylan Patel:有一个特别典型的例子。我们在俄勒冈州建了一个芯片逆向工程实验室,已经投入了一年半。里面有各种高端设备,比如扫描电子显微镜。我们会拆解芯片,分析它的结构和材料,这些数据是我们卖给客户的核心产品。

但这个分析过程本来是非常慢的。

现在,一个团队成员用几千美元的 token,做了一个 GPU 加速的应用,部署在 CoreWeave 的服务器上。现在只要上传一张芯片图片,这个系统就能自动识别出不同材料——比如哪里是铜、哪里是钽、哪里是锗、哪里是钴——并完成整个结构的有限元分析,还带可视化界面。

这个人之前在英特尔工作过,他说:这在以前是一个完整团队的工作,而且还需要长期维护。但现在,一个人就做出来了。把这种效率放大到整个公司层面,影响是非常夸张的。

还有一个我特别喜欢的例子。我们有个同事 Malcolm,他之前是大型银行的经济学家。那种机构的经济学团队通常有一两百人。

他一个人,用 AI 做了一件非常疯狂的事:他把 FRED 数据、就业报告等各种经济数据,通过 API 全部接入,然后开始跑回归分析,研究不同经济变量对通胀和通缩的影响。

更夸张的是,他还分析了美国劳工统计局(BLS)的 2000 项任务,判断哪些可以被 AI 完成,哪些不行,并建立了一套评估体系。目前大概只有 3% 的任务是 AI 可以完成的。

基于这些,他提出了一个概念,叫“幻影 GDP”(Phantom GDP):AI 会让产出增加,但由于成本下降得更快,理论上 GDP 反而可能下降。

他还顺手做了一整套语言模型评估体系,包含 2000 个评测任务。这些,全都是他一个人完成的。他自己也说,这在以前需要一个 200 人的团队干一年。

主持人:那作为公司经营者,你怎么看这种支出从接近 0 一路涨到 25%,甚至可能更高?你有没有想过什么时候该“踩刹车”?比如不用最顶级的模型,换便宜一点的?

Dylan Patel:从本质上讲,我们是在做信息生意——卖分析、做咨询、提供数据集。如果我不持续提升产品质量,这些东西很快就会被商品化(commoditized)。

比如我们最早做的数据产品,现在已经有很多人开始做类似的了。如果我们停在原地,很快就会失去竞争力。

AI 的确会让很多东西变成“商品”,就像它对软件行业做的那样。但关键在于:谁能更快迭代、谁能持续提升服务质量、谁能掌握客户,谁就能增长

那些不行动的“既得利益者”,一定会输。所以这其实是一个生存问题:如果我不用 AI,别人会用,然后打败我。

再举一个能源领域的例子。

我们之前有几位分析师,花了一年时间想做一个能源模型,但一直没做出来。能源数据服务市场大概有 9 亿美元规模,是一个很大的机会。

后来,我们有个负责数据中心能源业务的同事 Jeremy,“AI 上头”了。他连续几周每天花大概 6000 美元的 token。

在短短 3 周内,他做了这些事:抓取了美国所有发电厂、所有高压输电线路的数据,构建了整个美国电网的映射,还整合了大量需求侧数据。

最后做出了一个可视化系统,可以看到美国各个区域的电力供需情况。我们拿去给一些做能源交易的客户看,他们的反应是:“这东西你们做了多久?太强了,比某某公司还好。”

而那家公司,有 100 人团队,做了 10 年。当然,我们的系统还不够完善,但在某些方面已经更强了。

主持人:听起来,你描述的不只是效率提升,而是整个生产函数都被改写了。

Dylan Patel:完全是这样。现在的问题已经不是“能不能做”,而是“这个想法值不值得做”。因为执行成本已经低到几乎可以忽略不计了。

从你的角度来看,本质上你是在“商品化”这些能源数据服务公司。如果你不加快速度,那谁会来商品化你?所以问题就变成:作为一个企业经营者,你确实在大笔花钱,但这些投入到底带来了什么?是否真的带来了更多收入?

Dylan Patel:是的,确实带来了更多收入。

主持人:那你有没有担心过一个极限情况:那些掌握资本、负责投资的人——他们本来就是你的客户——会不会有一天说,“我们自己也有很聪明的分析师,那我们干脆自己做,不再买你的服务了”?如果一切变得这么容易,最终会不会所有能力都内收进这些投资机构内部?

Dylan Patel:首先,任何信息服务业务都有一个基本逻辑:我从信息中创造的价值,永远小于我的客户从中获得的价值。

举个简单的例子,如果我以 1 美元卖给你一条信息,你之所以愿意买,是因为这条信息能帮你赚超过 1 美元。所以,本质上你从我这里“套利”了,你赚得比我多。

像一些顶级投资机构,比如 Jane Street、Citadel,它们内部本来就有非常强的数据和研究能力。但即便如此,它们仍然会持续购买我们的数据,而且合作规模还在扩大。

原因很简单:我们有某种“优势因子”。我们更快、更灵活,是一个小团队,专注在一个非常具体的方向——AI 基础设施、token 经济,以及这场技术革命的演进路径。

我们对趋势的判断更前置,执行速度更快,产品迭代也更快。

当然,投资机构也会尝试自己构建一部分能力,但更多时候,他们会发现:直接买我们的数据更便宜。因为他们可以在我们的数据之上再做自己的分析,而不是从零开始构建整套体系。

不过,确实会有一部分人尝试自建,这是不可避免的。

Token 需求暴涨,但供给跟不上

主持人:我感觉每次跟你聊天,最后都会回到一个核心问题:token 的供需关系。这似乎是现在整个世界最关键的变量。从你亲身经历的这些变化来看,你对“需求侧”的判断有没有发生变化?

Dylan Patel:变化非常大。

如果我们从宏观角度看,比如 Anthropic,它的收入从大约 90 亿美元增长到现在的 350 亿到 400 亿美元年化水平——等这期播客播出时,可能已经到 400 亿到 450 亿美元了。

但关键是:它的算力并没有按同样比例增长。

如果你做一个简单的推算,并假设它没有减少研发算力(而事实上它不可能减少,因为它还在发布像 “Mythos” 和 Opus 4.7 这样的模型),那么可以得出一个结论:即使把所有新增算力都用于推理(inference),它的毛利率底线也在 72% 左右

而现实情况是,一部分新增算力还投入到了研发中,所以真实毛利率可能更高

要知道,在今年年初,有人泄露过他们融资文件中的数据,当时的毛利率只有 30% 多。这意味着什么?意味着 token 的需求增长速度,远远超过了供给增长。整个系统正在被需求侧“拉爆”。

主持人:也就是说,你看到的是一个需求远超预期、而供给跟不上的市场?

Dylan Patel:没错,而且这种失衡还在加剧。从我自己的公司就能感受到:一旦你真正把 AI 深度嵌入工作流,token 消耗会呈指数级增长。而且这种增长,不是“可选项”,而是“竞争所必需”

这才是最关键的变化。

主持人:像这样的公司,利润率是怎么能做到这么高的?这听起来几乎不现实。

Dylan Patel:本质原因很简单:需求太强了。

现在真正重要的,不是你用不用这些模型,而是你有没有“访问权”。比如,你有没有 Anthropic 的客户经理?有没有企业级合同?能不能提高你的 rate limit(调用速率限制)?

因为 token 本身已经变成一种高度稀缺资源。谁能付得起钱,谁就能用到更多。

这其实不是问题,而是资本主义的自然结果。Anthropic 现在一年大概有 400 亿美元的 token 收入,但关键是——这些 token 为客户创造的价值,远远超过 400 亿美元

不同企业,每个 token 能创造的价值不同。但随着模型越来越智能,真正重要的是:你是否能获取这些“最聪明的 token”,以及你如何使用它们。

最终,决定胜负的不是模型本身,而是人——你能不能把这些 token 用在最有价值的地方。

因为会有很多人使用 token,但并不是所有人都在创造价值。比如一些做 SaaS 的初创公司,用 Claude 生成代码,但如果他们的产品本身不创造足够价值,那他们很快就会被“挤出”市场——因为他们用不起这些 token

“Mythos 强大到让 Anthropic 不敢公开”

主持人:我今天刚好有个亲身体验:在飞机上我用模型的时候,被 rate limit 限制了。当我看到 4.7 发布后,我立刻就想用 4.7,甚至已经不想再用 4.6 了——尽管过去几周我一直用得很开心。你会不会觉得,大家对“最新、最贵模型”的执念,有点出乎意料?

Dylan Patel:完全不意外。我最近一个很好笑的经历是:我和朋友 Leopold,曾经“跪着求”一位 Anthropic 的联合创始人,让他给我们 Mythos 的访问权限——尽管他一直假装这个模型不存在。

但这恰恰说明了问题:大家都知道,更强的模型意味着更大的价值。

从目前流出的 benchmark 来看,Mythos 可能是过去两年里模型能力最大的一次跃迁。这一点非常关键。甚至可以说,它强到让 Anthropic 不敢完全公开发布。虽然他们已经给部分客户定了价格——大概是当前 token 成本的 5 到 10 倍——但他们仍然在犹豫,因为担心它对世界的影响。

现在对外发布的 Opus 4.7,其实是一个“刻意削弱”的版本,尤其是在某些敏感能力上。所以我的建议很直接:如果你有足够的资金,就应该尽早签一个 Anthropic 的企业级合同,按 token 付费,而不是用普通订阅。这样你才能避免被 rate limit 卡住。

然后,你必须解决一个核心问题:如何把这些 token 用在“最值钱”的任务上,并且从中赚钱。

从某种意义上讲,一两年之后,很多公司的本质,可能就是在“做 token 套利”:token 本身很强大,但关键在于你把它“指向哪里”。

再往后走三到四年,甚至连这个问题都不需要人来决定——模型自己就会知道,应该把算力用在哪些地方,来创造最大价值。

主持人:听起来像是一个完全不同的经济体系。

Dylan Patel:其实我们已经能从历史中看到这个趋势。

随便选一个能力基准来看:过去达到某个能力水平,可能需要非常高的成本;现在,成本可能已经降到原来的 1/100,甚至 1/1000。

比如一些新模型,在达到类似 GPT-4 能力时,成本已经下降了几个数量级。但有趣的是——没人真的在乎这些“旧一代能力”变便宜了。大家真正想要的,是最前沿的模型。因为只有前沿模型,才能创造真正有经济价值的东西

Dylan Patel:所以,驱动需求的,从来不是“成本下降”,而是“能力上限的提升”。

一年之后,今天的 Opus 4.6 或 4.7,可能成本只剩下现在的 1/100——比如我现在 700 万美元的开销,可能只需要 7 万美元。

但这不重要。

因为到那时候,我用的会是更强大得多的模型,能做更多、更复杂、更有价值的事情。

主持人:虽然 Mythos 这个模型单个 token 更贵,但因为它完成任务所需的 token 数量更少,所以在很多任务上反而比 Opus 4.6 更便宜,对吧?

Dylan Patel:没错。本质上是“单位 token 更聪明”。虽然单价更高,但效率提升太明显了,所以整体成本反而下降。

主持人:我记得上次见你的时候,Mythos 刚出来,你说这个模型好到让你有点“害怕”。你当时是什么意思?

Dylan Patel:Anthropic 在 2024 到 2025 年的一个核心目标,是让模型达到“L4 软件工程师”的水平——也就是一个比较初级但已经能独立工作的工程师。

基本上,他们用 Opus 4.6 做到了这一点。

但他们没明说的是:如果你看 Mythos 的 benchmark,它更接近“L6 工程师”——也就是一个经验相当丰富的高级工程师。更夸张的是,这个能力跃迁只用了两个月时间。他们内部大概在 2 月就已经有这个模型了。

所以问题就来了:接下来会发生什么?模型进步不仅没有放缓,反而在加速。无论是 Anthropic 还是 OpenAI,模型发布节奏都在明显压缩

原因其实很清楚:要做出更强的模型,需要三样东西——算力、研究人员、以及“实现能力”。

算力很贵,而且短期内基本是“锁定”的;顶级研究人员也极其稀缺,薪酬动辄上千万美元。但“实现能力”(implementation)这件事,过去一直是瓶颈,现在却被 AI 极大地降低了门槛。

以前你有一个好想法,但实现它很难;现在你有想法,实现变得很容易——虽然仍然需要花钱,但技术门槛已经大幅下降。

主持人:这会带来什么变化?

Dylan Patel:这会彻底改变“创新的节奏”。因为实现变容易了,你可以同时尝试更多想法,然后快速迭代。无论是在做模型研发,还是在做应用——都一样。

比如过去模型可能 6 个月发布一次,现在可能 2 个月就发布一次。再比如,你想建一个美国电网的供需模型——以前很难,现在也可以快速做出来。

问题变成了:你有那么多想法,但哪些想法值得投入 token 成本去实现

这其实是一个核心转变:过去,想法廉价,执行昂贵;现在,想法廉价且泛滥,执行变得便宜而容易。

所以,真正有价值的,只剩下“好想法”——那些能够证明自己值得被执行的想法。

主持人:那你说的“害怕”,更多是技术不确定性,还是别的?

Dylan Patel:不确定性肯定存在,但确实也带来了一种更深层的担忧——社会层面的。

我们正在进入一个世界:“你能不能执行”不再重要,真正重要的是——你能不能选对要做的事情。你的价值,变成了三件事:

1)选择正确的问题让 AI 去解决

2)把 AI 的产出转化为产品或价值

3)获取资源(资本、算力、token)来放大这一切

这也解释了为什么“最新模型的访问权”变得如此关键。

谁能用到最先进的模型?不再是所有人。

Anthropic 已经在做选择性开放,比如 Mythos 只提供给少数客户(目前主要用于网络安全场景)。未来这种趋势只会加强——模型不会全面开放,而是越来越“定向分发”。原因很现实:AI 太贵了。谁来为万亿美元级别的基础设施买单?一定是那些能用 AI 赚到钱的公司。同时,模型公司也不希望被“蒸馏”或复制,所以不会大规模开放最先进能力。

主持人:这听起来像是资源会越来越集中。是这样吗?

Dylan Patel:是的,这正是我在思考的问题:随着 token 的价值越来越高,这些资源和由此产生的收益,会不会集中在越来越少的公司手里?

比如我现在还拿不到 Mythos,但一些顶级银行已经在用了(虽然目前主要用于网络安全)。未来可能会出现这样一种情况:因为我有企业级合同、关系不错,我能稍微更早拿到新模型,或者获得更高的调用额度。我希望是这样——因为这本身就会成为新的竞争优势。

主持人:如果你的竞争对手拿不到这些最先进模型的访问权,而你能拿到,那基本上你就可以直接碾压他们,对吧?

Dylan Patel:完全可能。你可以想象一个极端但现实的场景:像 Ken Griffin 这样的人——既有钱又有关系——直接去跟模型公司谈一个协议,比如和 OpenAI 或 Anthropic 签约,说“我每年先买 100 亿美元的 token,你们的新模型优先给我用,等我用完第一批,其他人才可以用”。

如果这种事情发生,会怎样?

那他在市场上基本就是“降维打击”。这种优势可以体现在很多领域:可能是网络安全(Anthropic 目前就对这类场景高度敏感),也可能是信息服务(像我这样的业务),本质上都是一样的——谁先用上最强的模型,谁就能碾压别人。

更关键的是:我们其实并不知道这些模型真正的能力边界在哪里。

Anthropic 不知道,OpenAI 不知道,任何人都不知道。

真正去探索这些能力的,是“使用者”。是他们在不断尝试:这些 token 能用来做什么?能构建什么?

这件事本身,对人类生产力是极大的提升。但同时,也带来一个问题:资源和能力,会不会越来越集中到少数人手里?这些都需要时间来回答。

具身智能将成 AI 领域新的需求爆发点

主持人:那如果把视角拉远一点,比如机器人领域?现在机器人几乎不消耗 token,但未来会不会成为一个新的需求爆发点?

Dylan Patel:我认为会,而且非常快。现在有一个概念叫“软件奇点”(software-only singularity)——也就是说,AI 的爆发主要发生在软件世界。但现实是,绝大多数经济活动发生在物理世界。

所以,软件奇点只是一个阶段,而不是终点。一旦软件变得极其容易构建,下一步自然就是:把这些能力扩展到物理世界,也就是机器人。

现在机器人难在哪里?主要难在控制系统——比如微控制器、执行器、复杂的动作控制

而当前主流的机器人模型(比如 vision-language-action 模型)在数据效率上其实很低,没法像语言模型那样规模化。

但未来一定会出现新的路径:类似于“大规模预训练”的机器人模型,就像人类一样,通过大量经验学习,同时具备“样本高效性”(few-shot learning)

主持人:你觉得这个突破大概什么时候会发生?

Dylan Patel:我认为在未来 6 到 18 个月内,会出现真正有意义的突破。

比如你买一个机器人,只需要给它几个示例,它就能学会任务:让它叠衣服、搬东西、保持平衡,它都能很快掌握。到那个时候,机器人会变得高度专业化:可能会有专门擦黑板的机器人、叠衣服的机器人,甚至是一种“软件包”——你下载一个模型,它就让通用机器人具备某种能力。

这会带来两个结果:一是物理世界的生产效率大幅提升;二是通缩效应(deflation)进一步加强。同时,这也会让 token 的需求继续爆炸式增长。

我个人不认为 token 需求会放缓。

主持人:那回到模型本身,比如 Mythos,它的出现有没有让你对“规模法则”(scaling laws)有新的看法?

Dylan Patel:反而更确认了一点:规模法则仍然有效。Mythos 本质上是一个更大的模型——规模显著提升。这说明一件事:投入更多算力,模型就会变得更强

当然,不只是“堆算力”。整个过程中,还有大量“效率提升”——也就是说,达到同样能力的成本在持续下降。你可以这样理解:一方面,如果你不断扩大规模,会得到能力的巨大跃迁;另一方面,如果你维持同样能力水平,成本却在指数级下降。

Anthropic 已经领先了?

主持人:那从竞争格局来看,现在是不是 Anthropic 已经领先了?

Dylan Patel:表面上看是这样。他们在 2 月就有 Mythos,但甚至没有完全发布,因为需求已经爆满;现在又发布了 Opus 4.7。

很多人会说,那 OpenAI 是不是已经落后了?但事情没那么简单。Anthropic 的问题在于:算力受限。他们增长得很快,但扩张能力有限。

而 OpenAI 的策略完全不同——他们在算力上是“极端激进”的,大规模采购资源,从 Microsoft、Oracle,到 SoftBank,再到 Amazon 的 Trainium 芯片,全都在押注。

简单说:Anthropic 更克制,但现在也开始意识到算力不够;OpenAI 则是一开始就疯狂堆算力,现在反而有更大的扩展空间。

还有一个容易被忽视的点:技术的扩散是有“时间滞后”的。

你我可能第一时间用上新模型,但大多数企业需要时间去学习、适应、重构流程。

所以即使不考虑模型继续进步,仅仅是“现有能力的扩散”,到今年年底,一个类似 Opus 4.6 水平的模型,可能就能支撑起整个经济体数百亿美元的支出规模。

现在是 400 亿美元,这个数字继续增长,并不夸张。

主持人:所以你的意思是,现在的增长更像是“线性外推”,而不是指数增长?真正的指数级爆发,需要更强的模型?

Dylan Patel:没错。现在只是线性增长——真正的指数增长,取决于下一代模型能力的跃迁。

问题在于,Anthropic 可能没有足够的算力去推动那个跃迁。接下来更有可能是 OpenAI 或 Google 先达到那个层级

一旦有人先做到,就算他们的毛利率只有 50%,而不是 70%+,他们依然会吃掉几乎所有新增需求——而且很可能他们自己也没有足够算力去满足全部用户

你可以想象一个极端情况:如果算力完全充足,像 Mythos 这样的模型,理论上可以支撑 5000 亿美元级别的收入。

但现实是,算力严重受限。

我们已经看到,比如 NVIDIA H100 的价格在飙升,而且这些 GPU 的“使用寿命”也在被不断拉长。

这意味着什么?意味着不仅一线实验室(Anthropic、OpenAI)会“供不应求”,连二线、三线实验室也一样——大家都会把 token 卖光。

本质上,现在出现了一个越来越大的“剪刀差”:模型所能创造的经济价值,在飞速增长;但我们能提供的算力供给,增长得没那么快。这个差距会持续扩大。

而结果就是:模型公司的利润率会不断上升——直到硬件供应链开始“反向收割”,提高自己的利润

主持人:听起来你对需求侧的判断是:几乎爆炸式增长,而且这种增长还在加速。

Dylan Patel:是的,而且我觉得很多人还低估了这一点。我有一个比较极端的说法:如果你不使用更多 token,你会被困在一个“永久底层”(permanent underclass)。

主持人:这个说法挺激进的,展开讲讲。

Dylan Patel:这里其实有三个层次的问题:

第一,你要不要用更多 token;

第二,你能不能用这些 token 创造经济价值;

第三,你能不能把这些价值“抓在自己手里”。

很多人现在只做了第一步,甚至是以一种“偷懒”的方式——比如用 AI 把 8 小时工作压缩到 1 小时。但那只是最低级的用法。

更高级的方式是:你仍然工作 8 小时,但产出变成原来的 8 倍,收入可能变成 5 倍

这在传统“打工模式”下不一定成立,但对于创业者、自由职业者、多项目操盘的人来说,这是完全可能的。

关键是:现在还不是“标配阶段”(table stakes)。你还有窗口期,可以利用 AI 提前放大自己的产出。但一旦所有人都这么做,这种优势就会消失。如果你在这个阶段没有做到这三件事——

用 token、创造价值、捕获价值——那随着模型能力继续提升、资源进一步集中,你很可能会被甩在后面。

主持人:那我们聊聊供给侧。为了支撑这种需求爆发,整个技术栈在发生什么变化?

Dylan Patel:一句话总结:整个供应链都在“涨价 + 延长周期 + 预付款”。

首先是 GPU。像 NVIDIA 的产品,不仅价格在上涨,而且使用寿命也在延长。

过去很多人说 GPU 用 5 年就淘汰,现在看完全不成立——很多 3-4 年前的集群还在续约使用,甚至可能用到 7-8 年。这意味着云厂商的真实利润率,其实比表面看起来更高。

再往下看整个供应链:

  • 硬件层:像 NVIDIA,毛利率依然非常高

  • 内存:利润率已经大幅上升

  • 光学、逻辑芯片:通过“预付款”提升资本回报率

  • 光刻机:ASML 已经完全卖空,还依赖 Carl Zeiss 扩产

甚至更底层,比如 PCB 所需的铜箔,也开始供不应求,需要提前锁定产能。

你会看到一个非常一致的模式:整个链条上的每一个环节,要么已经售罄、在提价,要么在收预付款、提高资本效率。换句话说:只要是“有实体、有产能”的环节,现在都在被抢。这就是供给侧的现实。

主持人:从历史来看,需求爆发之后,供给通常会很快跟上,甚至出现过剩。但现在看起来,供给几乎不可能追上。你觉得当前最关键的瓶颈在哪里?

Dylan Patel:问题在于:这一次的供应链,比以往任何时候都更复杂。而且我们正在构建的系统,本身复杂度也极高,这直接拉长了交付周期(lead time)。

过去某些行业也有 18 个月的交付周期,但“扩产”本身不需要几年时间;而现在,即使你决定扩产,真正的新增供给也要等很久才会出现。

一个典型例子是内存。内存产能每年大概只能增长 20% 到 30%,这是物理极限。即使 2025 年底需求信号已经非常明确,厂商也开始扩产,但这些新增产能,真正落地可能要到 2027 年末甚至 2028 年。

这意味着什么?

意味着价格会持续上涨,而且还没结束。尤其是 DRAM,很可能还会再翻倍甚至翻三倍。很多人觉得“内存瓶颈已经被充分讨论了”,但实际上完全没有。真正的紧缺才刚开始。而在市场机制下,唯一的调节方式就是——涨价,通过“需求破坏”(demand destruction)来重新分配资源。

主持人:那除了内存,逻辑芯片这边呢?

Dylan Patel:逻辑芯片同样面临严重瓶颈。台积电(TSMC)一直在提高资本开支(capex),今年大概在 500 多亿美元,而且还在上调。

但问题是:建晶圆厂是需要时间的。

他们已经在尽可能压榨现有产能,但短期内不可能大幅提升供给。而且他们目前的涨价策略其实相对“温和”,只是个位数涨幅——不像内存那样激进。

这就带来一个问题:台积电当然是优质公司,但它未必能“吃掉”整个价值链的最大收益。

真正被低估的,是更上游的设备和材料供应链。比如:

  • ASML:已经完全卖空

  • Lam Research、Applied Materials:需求持续爆发

  • 更下游的供应商,比如 MKSI 等:同样受益于“订单外溢”

还有很多更细分的环节:铜箔、玻纤(PCB 材料)、激光器……这些都是“小而关键”的供应链,但现在全部处于极度紧张状态。

如果台积电在 2028 年真的做到 1000 亿美元资本开支(这不是幻想,而是现实可能),那整个供应链会被“鞭子效应”(bullwhip effect)不断放大冲击。

换句话说:越往上游,波动越剧烈,瓶颈越严重。

主持人:那除了 GPU,这一波 AI 还有哪些被忽视的瓶颈?

Dylan Patel:CPU 是一个被严重低估的瓶颈。现在大家都在讨论 GPU,但实际上 CPU 也已经“卖断货”了。

原因有两个:第一,强化学习(reinforcement learning)。模型训练现在不只是“喂数据”,而是要在环境中反复试错、评估结果。这些“环境”——无论是简单的文本校验,还是复杂的 CAD 仿真——都是运行在 CPU 上的。

第二,推理后的执行层。模型生成的代码、内容,并不会直接变成最终结果,而是要在各种应用环境中运行——这些环境,大量依赖 CPU。

换句话说:

  • GPU / ASIC:负责“思考”(模型推理)

  • CPU:负责“执行”(环境运行、应用落地)

随着 AI 生成的内容越来越多,CPU 需求也在同步爆发。

主持人:那从你的角度来看,最难判断的变量是什么?

Dylan Patel:不是供给,也不是成本,而是——“token 的经济学”。我们其实很清楚:

  • 训练成本是多少

  • 推理成本是多少

  • 模型公司大概赚多少钱

但最难的是:这些 token 被用来做什么?创造了多少真实价值?这些价值如何在经济中扩散?

比如我用 AI 提升了信息分析能力,然后把这些信息卖给客户,价格还比以前更便宜。这会带来什么结果?

  • 客户做出更好的投资决策

  • 企业做出更优的竞争策略

  • 整个经济效率提升

但这些价值,并不会完整体现在 GDP 统计里。这就是我说的“幻影 GDP”(Phantom GDP)问题:真实创造的价值,远远大于统计数据所反映的。但我们现在还没有一个很好的方法去衡量它。

少谈未来,多讲当下

主持人:最后一个问题。如果我们三个月后再聊,你觉得会发生什么?

Dylan Patel:我认为,会出现大规模的反 AI 抗议。

主持人:这么快?

Dylan Patel:是的。现在很多人其实是“反 AI”的,而且这种情绪在上升。随着 AI 收入快速增长、企业结构发生变化,人们会开始把各种问题归因于 AI。

再加上一些政治人物或社交媒体的推动,这种情绪很容易被放大。甚至已经有一些极端案例,比如针对 Sam Altman 的攻击事件,网上还有人表示支持。

这只是开始。

主持人:那 AI 行业应该怎么应对?

Dylan Patel:我觉得有三个关键点:第一,沟通方式需要彻底改变。像 Sam Altman 和 Dario Amodei 的对外表达,其实并没有很好地建立公众信任;第二,多展示“正面价值”,让普通人看到 AI 如何改善生活,而不是只谈“颠覆世界”;第三,少谈未来,多讲当下,如果一直强调“AI 将改变一切”,只会加剧恐惧感。

现在的问题是,大多数人既不了解这些公司,也不了解这些技术。他们看到的,是一个“神秘的小圈子”,在打造一个可能改变世界、甚至取代人类工作的系统。

如果这种认知不改变,反弹是必然的。

参考链接:

https://www.youtube.com/watch?app=desktop&v=LF3aUIM57uw