惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

酷 壳 – CoolShell
酷 壳 – CoolShell
H
Hacker News: Front Page
P
Palo Alto Networks Blog
T
ThreatConnect
Apple Machine Learning Research
Apple Machine Learning Research
博客园_首页
T
True Tiger Recordings
P
Privacy & Cybersecurity Law Blog
B
Blog
IT之家
IT之家
Last Week in AI
Last Week in AI
F
Full Disclosure
Hacker News: Ask HN
Hacker News: Ask HN
C
Comments on: Blog
Microsoft Azure Blog
Microsoft Azure Blog
C
Cybersecurity and Infrastructure Security Agency CISA
Microsoft Security Blog
Microsoft Security Blog
博客园 - 【当耐特】
N
News and Events Feed by Topic
NISL@THU
NISL@THU
腾讯CDC
雷峰网
雷峰网
Security Latest
Security Latest
李成银的技术随笔
M
Microsoft Research Blog - Microsoft Research
L
LangChain Blog
L
Lohrmann on Cybersecurity
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
C
Check Point Blog
Y
Y Combinator Blog
Recent Announcements
Recent Announcements
博客园 - Franky
N
News | PayPal Newsroom
V
V2EX
A
About on SuperTechFans
The Register - Security
The Register - Security
月光博客
月光博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Google Online Security Blog
Google Online Security Blog
MyScale Blog
MyScale Blog
Cisco Talos Blog
Cisco Talos Blog
Vercel News
Vercel News
WordPress大学
WordPress大学
C
Cyber Attacks, Cyber Crime and Cyber Security
The Hacker News
The Hacker News
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
爱范儿
爱范儿
A
Arctic Wolf
L
LINUX DO - 最新话题
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More

InfoQ - 促进软件开发领域知识与创新的传播

Cloudflare 推出支持确定性执行和 5 万个并发工作流的 Workflows V2 对话灵感实验室:全帧率 VLM、低成本与分层部署,业务现场不止需要炫技模型 10 天 3000 元,一人造出全球 AI 爆款!好莱坞导演抢人、游戏版引爆期待,合作细节首次披露 Anthropic 推出 Routines for Claude Code Snowflake Intelligence 合作伙伴生态:把 AI 能力带入千行百业 |技术趋势 一个隐蔽的循环依赖如何导致了 Discord 3 月份的语音服务中断 Arm 携手通义实验室,发起手机上的创意 AI 挑战赛 基准测试表明:AI智能体可修复独立漏洞,却难以理解系统范围影响 CIO 正在抛弃 AI 生码率:一场关于什么才算产研提效的实践复盘 外行式 Vibe Coding 正跟专业的Agent 工程走向融合:最吓人的是,我们“摆烂”有正当理由了? 不换 Kimi 底座,1/10 成本追平 Opus 4.7?Cursor 用 Composer 2.5 反击 Claude Code Snowflake Intelligence:从回答问题到执行任务的个人工作 Agent | 技术趋势 SolidJS 2.0 Beta:一级异步支持、重构的Suspense与确定性批处理 训推一体潮汐弹性:蚂蚁集团在智算基础设施的池化调度实践|AICon上海 如何在软件组织中扩展社会化的系统 Moonrepo发布moon v2.0:引入WASM插件工具链并重构CLI 蜂群Agent来了!openJiuwen社区发布JiuwenSwarm,引领Coordination Engineering新范式 Pinterest 工程师消除 CPU 僵尸进程,解决生产环境瓶颈 AMD苏妈对话李开复:AI转型只能由CEO驱动、未来“DRI”(直接负责人)将是企业核心|直击现场 8大岗位AI技能图谱 Anthropic发布工程事故报告,说明六周来Claude Code质量下降源于三项产品调整 05·29 腾讯云「数据库+AI」产品发布会重磅启幕 Airbnb 采用基于上下文的身份识别模型,支持隐私优先的社交功能 Anthropic首次揭秘下一代Claude怎么造!用户吐槽直接喂模型,连AI“做梦”都被训练 消息积压方面的数学知识:用于队列恢复的容量规划 Netflix借助Apache Druid中的区间感知缓存让84%的查询结果直接命中缓存 小红书 vibe coding 平台(Muse)之高可用人机共创 Agentic 系统架构实践|AICon上海 时序存储:影响成本与性能的设计选择 Cangjie:一门新的开源编译型语言,原生支持效应处理器和代数数据类型 Snowflake Observe:可观测性与 AI 数据云的融合 | 技术趋势 Golden Question 征集令|把你的 AI 落地之问带去 Snowflake Summit 26 H200还没到中国,Anthropic先急了:千亿美元抢芯片,转头涨价让开发者买单 曝Kimi 后训练团队研究员离职,曾为K2.5贡献者;MiniMax最新招聘,兼职也拿期权;传蜜雪CEO隔空回复黄仁勋,“大佬同款”卖爆|AI周报 从第一性原理出发:那些构建 Snowflake 的理念,以及下一步走向 | 技术趋势 Coder Agents让企业能够在自托管基础设施上运行AI编码工作流 超越基准:采用基于指标的方法在真实设备上维持iOS长期的良好性能 Java新闻汇总:GraalVM、Spring AI、JobRunr、GlassFish、Grails、Groovy和Quarkus Agent MCP 一个二十多年老兵的忧心:那条从Debug开始走向资深工程师的路,正在崩塌 从 Vibe Coding 到需求托管交付 Agent,菜鸟 AI 研发效能实践|AICon上海 从批处理迁移到微批次流式处理的实战经验 AI 的“最后一公里”:本地执行与全场景硬件接入的下一代 Agent 中枢|AICon上海 ChatGPT 可以帮你理财了,但它也知道你的全部余额!用户:谢谢不用了 记忆感知的大模型 KVCache 优化|AICon上海 Kubernetes v1.36 发布:安全默认配置强化,AI 工作负载支持日趋成熟 百度想明白了:旧供给到达极限了 “一人公司”正在重做AI创业?极客部落首场16个OPC项目路演:AI 创业已从“卷模型”转向“卷闭环” 当AI助手进化为自主智能体:英伟达如何携手 SAP 重构企业级“信任逻辑”? JEP 533 加强 JDK 27 中 Java 结构化并发的异常处理 兼顾效率、成本与能力,百灵开源旗舰推理模型 Ring-2.6-1T Grafana Pyroscope 2.0:实现持续性能分析规模化落地 AdonisJS v7 推出端到端类型安全、经过重构的项目模板以及零配置 OpenTelemetry Anthropic 推出 Claude Platform on AWS 鼠标每动一下都在训练AI,Meta员工“造反”了:厕所、会议室都贴满抗议传单 GitHub 推出 MCP 服务器集成,全面扩展机密扫描功能 蚂蚁灵波开源LingBot-VLA真机后训练全流程代码,150条示教数据即可适配新机器人 科大讯飞面向超大规模教育场景的 Agent 系统架构演进与工程实践|AICon上海 复制失败与脏碎片:Linux 页面缓存漏洞影响所有主流发行版 当 Agent 开始接管工作流,企业最在意的三件事:安全运行、稳定交付、持续进化 当 Agent 开始接管工作流,企业最在意的三件事:安全运行、稳定交付、持续进化 龙虾犯错,员工背锅?Agent 需要安全、稳定与持续进化的底座 拒掉字节、谷歌橄榄枝,Meta 离职大佬田渊栋官宣自立门户!苏妈老黄追着投 把 UI 生成接进流水线:基于半监督评测体系的 UI 自动化生产实践 AWS 改进 Aurora Serverless:扩容速度提升 45%,吞吐量提高 30% 从服务器 OS 到 Agent 沙箱:腾讯云如何打通 AI Infra 的生态底座 AWS WorkSpaces 支持 AI 智能体直接操作遗留桌面应用程序 Gemini 进手机,Android 翻身;Gemini进电脑,全网开喷! 本地优先 AI 推理:高性价比文档处理云架构模式 前阿里Qwen负责人林俊旸再创业,新AI Lab估值136亿元 黄仁勋最后一刻登上访华飞机,英伟达中国市场再添变量 Netflix 推出“模型生命周期图”,扩展企业级机器学习 AI Agent 沙箱的网络安全:从流量隔离到智能治理|AICon上海 谷歌 DORA 团队发布新报告:扎实的工程基础决定了 AI 投资回报 从「自我进化」到「DAA」,百度给出 Agent 时代系统答案 MySQL 9.7 发布:8.4 之后首个 LTS 正式版,企业级功能下放社区版 当 AI Agent 走进生产数据库,DBA 的角色正在被重新定义 GitHub 如何保障现代CI/CD系统中智能体工作流的安全 Manus 交易失败后,创始人仍在谈论 Agent 时代的成功经验 MediaTek 发布 AI 与游戏开发新工具,聚焦端侧智能体与移动图形能力 把 RAG 做成主流的公司,现在开始“做空”RAG 了 6 天、96 万行 Rust、直接合并?Claude Code 被 Bun 的内存泄漏拖垮后,Bun 让 Claude 亲手重写了自己 摩尔线程 MUSA 合入SGLang主线,国产GPU开源生态从“代码共建”迈入“原生支持时代” 智能体成新型攻击入口?模型上线前OpenAI内部到底审什么?董事会成员首次详解 Cloudflare 推出 Artifacts Beta 测试版,为 AI 代理引入类似 Git 的版本控制功能 在软件设计中应用当下最佳简易系统 Cortex 智能代理:赋能 Snowflake Intelligence 打造企业级 AI 代理核心平台 |技术趋势 局中局!给 Agent 装上 OpenViking,它们竟然学会了“记仇”和“伪装”? OpenAI 推出基于 WebSocket 的执行模式,减少代理工作流延迟 ChatGPT那一套要过时了?翁荔实测创业首个模型,回合制AI被“原生实时交互”秒了 火山引擎OpenViking 上下文数据库范式探索|AICon上海 平台工程三大支柱的良性循环 知名开源作者呼吁对软件供应链进行验证,而非盲目信任 模力工场039周AI应用周榜:AI 应用正悄悄变“窄”,通用工具之争逐渐退潮,垂直流程开始冒头 谷歌在 Next '26 大会上宣布推出 GKE Agent Sandbox 和 Hypercluster,并将 Kubernetes 定位为 AI 代理 从 Redis 到 Valkey,开源社区如何快速创新? 梁文锋出资200亿元,DeepSeek阿里谈崩?宇树机器人在韩国佛门受戒,法号“迦悲”;员工人均奖金达610万人民币,被婚恋市场追捧?官方回应|AI周报 专为智能体和 SOTA 模型训练而设计的谷歌新一代 TPU 在大厂,token用少了不“健康” Kubernetes 自主AI智能体安全防护:新型云工作负载的信任边界、密钥管理与可观测性 企业每月烧掉数百万元Token却算不清账,谁来解决大模型的“最后一公里”工程难题? 从买算力到卖能力:嬴彻科技七亿商用里程背后的云上飞轮
“我把所有模型都换成了DeepSeek V4”:月账单将降 90%,效果还更好
Tina · 2026-04-27 · via InfoQ - 促进软件开发领域知识与创新的传播

2026 年 4 月 23 日,OpenAI 做了两件事:发布了 GPT-5.5,并把价格翻了一倍。

按常理,这应该是属于 OpenAI 的一天。全新预训练架构“Spud”的首个公开版本,SOTA 级的基准测试成绩,SemiAnalysis 在第一时间给出了“GPT-5.5 已经抵达前沿”的评价。但翻看定价页面,开发者很难不算账:每百万输出 token 收费 30 美元,比前代 GPT-5.4 贵了一倍,甚至比一贯以昂贵著称的 Claude Opus 4.7 还要贵出一截。

而仅仅过了不到一天,4 月 24 日,DeepSeek 把 V4 的模型权重扔到了 HuggingFace 上。MIT 开源协议,100 万 token 上下文窗口,以及一个极其低廉的价格:输出 token 每百万 3.48 美元。

大概只有 GPT-5.5 的十分之一。

科技博主兼 AI 系统架构师 Sean Donahoe 在今天凌晨发了一条帖子。他写道:

“DeepSeek V4 Pro 在编码基准测试中击败了 Claude Opus 4.6 和 GPT-5.4......今天早上,我把 Claude Code、Codex、Cursor、Aider,以及我用的所有其他编程智能体全部指向了 DeepSeek 端点。不用 OpenRouter,不用代理,原生 API。我的月账单将下降 90% 以上,而且效果比昨天还好。”

这条帖子实际上有两个看点。第一,发帖人是重度 AI 编程用户,却几乎一夜之间完成迁移,月账单会从几千美元降到几百美元。第二,他不只是说便宜,还强调效果没有变差,反而更好:“输出质量提高了,而不是下降,这一点已经通过内部测试以及多个公开基准验证”。

DeepSeek 出手之后,价格成了第一变量

过去三个月,模型竞争激烈。几乎每周都有一家头部模型厂商发布新的 coding checkpoint,GLM-5.1、Qwen3.6-Plus、Kimi K2.6、Composer 2、Gemini 3.1 Pro,都在强调同一件事:agentic coding、长任务、多步骤规划。

进入 4 月,圈子里一直在讨论两个代号:Anthropic 的“Capybara”和 OpenAI 的“Spud”。4 月 23 日,GPT-5.5 正式发布,成为基于“Spud”的公开版本。对 OpenAI 来说,这是 GPT-4.5 之后一次很关键的预训练模型更新,外界期待很高,价格也不低。有分析指出,虽然 NVIDIA 和 OpenAI 都提到 GPT-5.5 在 10 万台 GB200 NVL72 集群上“训练”,但这里的“训练”更准确地说是强化学习的后训练阶段。真正的预训练,仍然是在 Hopper 平台上完成的。

但只过了不到 24 小时,DeepSeek V4 开源。模型竞争一下子不只是在比谁更强,也开始比谁更便宜。

OpenAI 的旗舰模型过去通常比 Anthropic 更便宜,但这一次不一样了:GPT-5.5 的 API 定价为每百万输入 token 5 美元、每百万输出 token 30 美元,比前代 GPT-5.4 贵了一倍,甚至比 Claude Opus 4.7 的输出定价还贵出一截。

更值得注意的是,OpenAI 为 GPT-5.5 设计了一套复杂的定价分层。除了标准 API 之外,OpenAI 还提供了一个优先级(priority)套餐,价格是标准档的 2.5 倍。如何为“更快的 token”收更多钱,正在变得越来越关键。这里需要说明的是,priority 和 fast mode 是两回事。fast mode 只是给出一些相对模糊的承诺,比如“价格贵 6 倍,速度大约快 2.5 倍”;而 priority 提供的是更保守但更明确的 SLA(例如:99% 的时间里吞吐量超过 50 tokens/s)。

这还没算 GPT-5.5 Pro——专为科学研究和长程推理设计的版本,输入/输出定价分别为每百万 token 30 美元和 180 美元,瞄准的不是日常编码场景,而是前沿科研用例。

标准版和 Pro 版都提供多档推理强度:xhigh、high、medium、low 以及 non-reasoning,本质是在成本与能力之间做取舍。从 strawberry/o1 那一代开始,这一点已经很明确了:推理强度越高,结果通常越好,但消耗的 token 更多,响应时间也更长。

在 GPT-5.5 发布前一周,Anthropic 刚刚推出 Claude Opus 4.7。相比 4.6,Opus 4.7 更像一次小幅升级,没有带来明显质变。

Token 计数方式的更新,是这次定价变化里最关键的一点。4.7 使用了新的 tokenizer,通过更细粒度的切分来换取性能提升,但代价是整体 token 用量会上升。官方也直接承认,这会带来最高约 35% 的 token 增长——换句话说,价格也等于变相上涨了 35%。

然后 DeepSeek V4 来了。

V4 系列包含两个模型:DeepSeek-V4-Pro 和 DeepSeek-V4-Flash。前者参数规模为 1.6T 总参数 / 49B 激活参数,后者为 284B / 13B。相比 V3(671B / 37B)是一次升级,而 Flash 是一个更轻量的下探版本。这使得 DeepSeek-V4-Pro 成为目前规模最大的开源权重模型

把价格拉出来对比,差距大到让人无法忽视。简单算一笔账:同样处理一百万输入 token 和一百万输出 token,GPT-5.5 的合计成本是 35 美元,Claude Opus 4.7 是 30 美元。而 DeepSeek-V4-Pro 是 5.22 美元。如果输入命中缓存,输入价格进一步降至每百万 token 0.145 美元,同样这笔账就变成了 3.625 美元。

也就是说,在标准定价下,DeepSeek-V4-Pro 的成本大约是 GPT-5.5 的七分之一、Claude Opus 4.7 的六分之一。如果缓存命中,差距进一步拉大——大约是 GPT-5.5 的十分之一、Claude Opus 4.7 的八分之一。

真正把价格压到“近零地带”的,是 DeepSeek-V4-Flash。V4 Flash 的 API 输入价格每百万 token 仅 0.14 美元,输出价格 0.28 美元,合计 0.42 美元。缓存命中后进一步降至 0.308 美元。同等输入输出量下,Flash 的成本不到 GPT-5.5 和 Claude Opus 4.7 的 2%——便宜了 98% 以上,几乎只有对方的百分之一。

如果把当前主流模型的定价放在一张表里看,这种分化更加直观:

更重要的是,DeepSeek V4 走的是 MIT 开源协议。这意味着开发者完全可以把模型部署在自己的服务器上,不走 API 调用,直接绕开 token 计费逻辑。对于有合规要求、数据不能出域的场景,这个选项的权重甚至超过价格本身。

V4 相比 V3 的核心进展,是上下文窗口从 128k 提升到了 1M。因此,这一代的技术优化几乎都围绕长上下文展开,包括:

  • Compressed Sparse Attention(CSA):压缩稀疏注意力

  • Heavily Compressed Attention(HCA):高压缩注意力

  • Manifold-Constrained Hyper-Connections(mHC):流形约束超连接

对应的效果是:“在百万 token 上下文场景下,DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 V3.2 的 27%,KV cache 仅为 10%。”也就是说,KV cache 减少了 90%。这个幅度甚至超过了上个月 Google TurboQuant 的论文,对 NAND Flash 产业链来说,是个需要警惕的信号。

在工程层面,DeepSeek 还在 DeepGEMM 中开源了一个 Mega-Kernel,宣称支持 NVIDIA GPU 和华为 Ascend NPU。可以看出,他们的目标之一,是未来在 Ascend 上承载一部分推理流量。官方 API 页面还提到,受限于高端算力,目前 V4-Pro 的服务吞吐仍有限,预计下半年昇腾 950 超节点批量上市后,Pro 价格会大幅下调。

业界实测效果

三款模型,三种定价逻辑:OpenAI 在涨,Anthropic 在偷偷涨,DeepSeek 则直接掀桌。如果只看数字,选择几乎没有悬念。

不过,DeepSeek 自己也承认,和顶尖选手之间还有距离。他们在技术报告里写道:“通过增加推理 token 的使用量,DeepSeek-V4-Pro-Max 在标准推理基准上优于 GPT-5.2 和 Gemini-3.0-Pro,但仍略逊于 GPT-5.4 和 Gemini-3.1-Pro,距最前沿模型大约还有 3 到 6 个月的差距。”

那么,实际效果如何呢?

在 Sean 宣布全面迁移的同一天,AI 研究员 Rohan Paul 和他的团队做了一个测试:给 DeepSeek V4 Pro 和 GPT-5.5 同一份提示词,开发一个完整的卡丁车竞速游戏,全部塞进一个 HTML 文件。

提示词严苛到像一份游戏策划需求书:Canvas 渲染,方向键和 WASD 双套操控,加速、刹车、漂移、倒车一个不能少。物理引擎从零手写,摩擦力、最高速度、转向灵敏度全部要调。赛道有路面、草地、弯道和窄路,冲上草地减速,撞墙弹回。至少 3 辆 AI 对手,自动沿赛道行驶,速度各异。道具系统要有金币、加速板和随机道具箱。画面全用 Canvas 形状手绘,漂移拖痕、加速尾焰、屏幕震动,一个视觉效果都不落。音效用 Web Audio API 合成,倒计时、碰撞、冲线都要出声。UI 要完整:标题画面、3-2-1 倒计时、实时 HUD、结束排名。

最终的数据对比是这样的:

DeepSeek V4 Pro 输出了近两倍的 token,但便宜了 4.3 倍。至于两个游戏跑起来分别是什么样子,我们直接上视频,你自己体验。

如果说卡丁车测试考察的是“能不能做一个完整产品”,那同一天另一个测试考察的则是更微妙的东西——审美。做出来的页面“好不好看”,任何人都能一眼判断。

中文技术社区的一位开发者用同样的提示词、同样的工具,让 DeepSeek V4 Pro 和 GPT-5.5 各自生成一个 Apple 风格的天气界面。提示词给了一个很高的起点:

“你是 Apple Inc 的顶级 UI 设计师,以 iOS 18 的设计风格(毛玻璃效果、高斯模糊、动态渐变、细腻阴影)创建一个单个 HTML 文件。实现横板天气页面,包含 4 个并排的动画天气卡片:晴天(太阳光线、动态光晕)、大风(飘动云朵、摇曳树木、风线)、暴雨(下落雨滴、形成水洼、闪电)、暴雪(下落雪花、堆积效果)。卡片需深色背景,支持按钮切换天气状态,实现流畅交互和微动效。代码必须可直接运行,美观度优先。”

工具也完全统一,两个模型生成时,用的都是 Claude Code。你猜哪个是 DeepSeek 的?

不过,在日常问题上,DeepSeek 确实更强:

科技博主 Simon Willison 有一个习惯:每次 DeepSeek 发布新版本,他都会用同一句提示词 “Generate an SVG of a pelican riding a bicycle”,生成一张鹈鹕骑自行车的 SVG。这次 V4 发布,他照例做了一遍,也照例把历代结果放在一起。

从 2025 年 3 月的 V3,到 8 月的 V3.1,再到 12 月的 V3.2,以及现在的 V4,每一版都比上一版更像样。早期的鹈鹕歪歪扭扭,脚踏板对不准,自行车架子也松散。到了 V3.2,车架结实了,鹈鹕也开始像个正经骑手。这次 V4-Flash 又往前走了一步:链条画出来了,前轮加了反光片,翅膀搭在车把上,脚也踩到了踏板上。总之,是一次比一次好。

DeepSeek-V3-0324

DeepSeek-V3.1

DeepSeek-V3.2

DeepSeek-V4 Flash

DeepSeek-V4 Pro

DeepSeek 在 V4 发布当天,用一句话表明了他们对这些讨论的姿态——“不诱于誉,不恐于诽,率道而行,端然正己。”

这也恰好解释了这只鹈鹕一年来的轨迹。

参考链接:

https://x.com/rohanpaul_ai/status/2047762509474726285

https://simonwillison.net/2026/apr/24/deepseek-v4/

https://linux.do/t/topic/2045480

https://venturebeat.com/technology/deepseek-v4-arrives-with-near-state-of-the-art-intelligence-at-1-6th-the-cost-of-opus-4-7-gpt-5-5

https://www.facebook.com/groups/techtitansgroup/posts/1642732440387401/