惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Engineering at Meta
Engineering at Meta
博客园_首页
WordPress大学
WordPress大学
宝玉的分享
宝玉的分享
罗磊的独立博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
酷 壳 – CoolShell
酷 壳 – CoolShell
O
OpenAI News
阮一峰的网络日志
阮一峰的网络日志
小众软件
小众软件
S
Securelist
博客园 - 叶小钗
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
L
LINUX DO - 热门话题
Jina AI
Jina AI
博客园 - 【当耐特】
C
Cisco Blogs
爱范儿
爱范儿
Scott Helme
Scott Helme
月光博客
月光博客
P
Proofpoint News Feed
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
人人都是产品经理
人人都是产品经理
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
J
Java Code Geeks
T
Tailwind CSS Blog
S
Schneier on Security
D
Darknet – Hacking Tools, Hacker News & Cyber Security
P
Privacy & Cybersecurity Law Blog
T
Threatpost
IT之家
IT之家
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
博客园 - Franky
V
Vulnerabilities – Threatpost
V
Visual Studio Blog
P
Proofpoint News Feed
C
Cyber Attacks, Cyber Crime and Cyber Security
MongoDB | Blog
MongoDB | Blog
Stack Overflow Blog
Stack Overflow Blog
G
Google Developers Blog
T
Tor Project blog
The Hacker News
The Hacker News
NISL@THU
NISL@THU
腾讯CDC
SecWiki News
SecWiki News
有赞技术团队
有赞技术团队
Blog — PlanetScale
Blog — PlanetScale
Application and Cybersecurity Blog
Application and Cybersecurity Blog
Google DeepMind News
Google DeepMind News

InfoQ - 促进软件开发领域知识与创新的传播

Meta 收购 Manus 这事儿泡汤了 5.5万 Star 开源项目 Ghostty 被迫出走,GitHub 正在终结一代技术人的乌托邦 Slack 长时运行多智能体系统的上下文管理方案 从 T+1 到分钟级:金城银行基于 Apache Doris 构建高可靠、强一致的实时数据平台 谷歌云推出 Agents CLI,简化 AI 智能体开发全流程 Claude官方击穿高薪、高学历的安全防线!Anthropic点名10大高危职业,但有群人暂时稳了 亚马逊云科技终止 WorkMail 服务,并将 App Runner 转入维护模式 OPPO小布记忆:全模态碎片化内容的理解与智能整理实践|AICon上海 模力工场038周AI应用周榜:工具在消失,工作流在出现 Akamai CEO Tom Leighton:Agent 时代来临,云基础设施正从“中心化”转向“分布式边缘” 日均数百亿入库背后:从“人肉调度”到K8s弹性架构,度小满金融基于OceanBase重构入库架构实践 百度文库网盘发布GenFlow 4.0:月活用户超1亿,要把网盘变成全端AI工作台 Altman 投的 Agent 终端 Warp 开源了!斩获3.5万star 哪些客户需要拒, 敢让龙虾决定吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 从开发到生产:为什么越来越多的机器学习团队纷纷迁移到 Snowflake | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 探索多智能体工作流:LangGraph Snowflake Cortex AI | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 腾讯云分布式缓存数据库:AI Agent - 从提示词工程到 Harness 工程 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 基于 Streamlit 为 CSV 数据构建分析智能体 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 AI 智能体:告别文档缺漏 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 构建 AI 驱动的数据管道:深度探讨 Snowflake Openflow 与非结构化数据 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 云端太贵、本地不够聪明,英特尔押注“端云混合AI”:智能体PC会替人完成工作 不到10%的存储投入,可能拖垮90%的GPU投资!IBM把AI Agent塞进存储系统,算清企业最容易忽略的一笔账 Snowpark 上手实战 | BUILD 2025_大数据_王玮_InfoQ精选视频 ClickHouse + Langfuse,构建 Agent 可观测基石 腾讯云分布式缓存数据库:Cluster Proxy 共享连接架构深度解析 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 AI 写代码太烧钱了:Copilot、Claude 一起涨价,不如把程序员请回来? 英特尔发布至强600系列工作站处理器与锐炫Pro B70 GPU,全新AI工作站来了 腾讯云分布式缓存数据库:从 Redis 到 Valkey - 开源社区如何快速创新 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 印奇这次要“从0重做”智驾模型!首谈阶跃和千里双公司布局:中国AI商业闭环要靠车跑出来 从Cursor返聘归来,90后华裔女高管带Claude开启日更模式:token成本比工程师工资低多了! 从 Coding 到 Agent:QCon 北京 2026 全景复盘,优秀出品人 & 明星讲师名单揭晓 全链路支撑大模型国产化“Day 0适配”,商汤大装置构建全栈能力底座 凌晨,OpenAI 与亚马逊云科技史上最大联合发布来了 HashiCorp Vault 2.0 发布:引入新身份联邦机制,迈入 IBM 生命周期体系 Yelp 实现超 1,000 个 Cassandra 节点零停机升级 写了 17 年开源代码,我为什么认为 Coding Agents 堆功能是在瞎折腾? 基于 Apache Camel 编排智能体与多模态 AI 管道 面向智能体与人类用户的AI记忆系统:架构设计与核心场景实践|AICon上海 Anthropic 推出 Managed Agents,简化 AI 代理部署流程 阿里HappyHorse开启灰测,720P视频生成低至0.44元/秒 讯飞联合清华团队押注量子AI:不看营收、不设KPI,一群“无人区”科学家,抢夺下代AI算力入口 小米万亿模型全面开源:MIT 协议、1M 上下文,但还是打不过 DeepSeek Cortex Code 入门指南:面向数据工程师的实践路径 | 技术实践 openJiuwen社区首发Team Skills,定义Coordination Engineering新范式 用 Snowflake Cortex Agents 释放结构化数据的最大价值 | 技术实践 Grafana 利用 Kafka 对 Loki 进行了架构重构,并发布了一款命令行工具,旨在将可观测性引入编码代理 ClickHouse重构全文索引:对象存储上跑出高性能 Full-Text Search 可观测性和遥测技术如何提升软件工程实践 Dropbox 与 GitHub 合作,将单体库大小从 87GB 缩减至 20GB Agent 的下一站:基于长期记忆系统 EverOS 的自我演进|AICon上海 同一赛道,四种收费:Agent 控制层(Harness)开始分裂 Cloudflare Sandboxes 正式发布,为 AI 代理提供持久化隔离环境 Agent 的“记忆断片”困局,该怎么破?_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选视频 数据分析师如何快速建立在 AI 时代最值钱的能力:一份可落地的行动路线图 摩尔线程最新财报:研发占比超86%,万卡级大规模智算集群落地 当云区域失效:地缘动荡环境下的高可用重构 Slack 重构通知系统,设置参与度提升 5 倍 智能体工程的隐性技术债务 “我把所有模型都换成了DeepSeek V4”:月账单将降 90%,效果还更好 阿里云智能集团高级技术专家刘少伟已确认出席AICon上海站,并分享如何构建企业 Agent 的自动化行动架构 构建生产就绪的 tRPC API:Apollo Federation 的 TypeScript 替代方案 Anthropic推出面向Claude Code的基于智能体的代码审查功能 北京车展直击:斑马智能甩出车载Agent短剧,比亚迪率先落地,AI让智能座舱又热起来了 Snowflake 作为智能体运行时:从静态管道迈向自主数据系统 | 技术实践 Snowflake 上的本体体系:基于 Cortex Code 能力实现从架构到部署 | 技术实践 Cloudflare 公布 MCP 架构方案,应对企业面临的安全与治理风险 复杂的项目管理怎么做到「AI 友好」?飞书项目用「开放」给出答案 Snowflake Cortex Code 的规范驱动开发:将 SDLC 方法论引入 AI 辅助工作流 | 技术实践 Copilot 不让注册了:从“随便用”到“全面限”,agent 把原有订价模型顶穿了 当互联网用AI卷效率时,这家公司先问了一连串“能不能” Meta 开始记录员工每一次点击:AI 要接管工作,先监控会工作的人 Meta“Token榜”逼疯打工人,一夜烧掉公司几万刀!AI时代Token焦虑越来越离谱 智源FlagOS完成DeepSeek-V4-Flash在八款芯片Day0适配,实现三重技术突破 DeepSeek V4 重磅开源!首次打通华为Ascend,也没丢掉英伟达,百万上下文夺回国产模型话语权 李志飞的“新实验”:当超级个体撞上真实组织 GPT-5.5 登顶时刻,Anthropic 亲口承认 Claude 变笨了!网友群嘲:太敷衍 那些没空写的小需求,龙虾真能做吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 从 Pandas 到生产:使用任意 IDE 进行可扩展的 ML 数据管道与分布式处理 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 pnpm 11 候选版本发布,带来 ESM 分发、供应链默认设置以及新的存储格式 银行业PDF表格提取方案重构:基于Java的分层方案 GPT-5.5 赢了 Opus 4.7 和 Mythos?奥特曼晒黄仁勋内部信:英伟达全员用上 Codex! Cloudflare 推出 Think:一款面向 AI 代理的持久化运行时 1850亿美元天价支出、75%代码由AI生成!谷歌正式宣告:全面转向智能体工作流 xAI落后太多,马斯克“开大”重金求购Cursor,100亿美金“分手费”都敢签! Pulumi 新增对 Bun 运行时的全面支持 姚顺雨腾讯模型首秀!不卷参数只做 “听话打工人”,Hy3 preview登场 | 附实测 老板让你“忽悠”投资人,你敢发给龙虾吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 Gemini CLI 引入子代理机制,实现任务委派与并行代理工作流 清华系团队星工聚将完成数千万天使轮融资,轮式机器人拿下头部制造企业亿级大单 Pretext.js 绕过 DOM 布局重排,实现 120 FPS 的高级交互体验 靠“AI 云”爆红的 Vercel,栽在一个第三方AI工具手里!IPO前夕遭黑,200万美元赎金谈崩? 高能研讨会|端侧 AI 正在重写实时感知效率上限_AI&大模型_王玮_InfoQ精选视频 2050大会看这篇就够了|报名、交通食宿指引大全 Java 近期资讯:OpenJDK JEP、Jakarta EE 12、Spring Framework、Micrometer、Camel、JBang 金融智能的架构编排:基于 Snowflake Cortex Agents 实现结构化与非结构化数据统一分析 | 技术实践 在AK大神爆火的任务里,摸清国产AI真实水平 百灵Ling-2.6-flash 正式发布:高 Token 效率,以 1/10 消耗实现 SOTA 级 Agent 能力 当 PM 懂AI,当技术懂产品:AI 时代产品力的双向进化|PM x AI产品力领航者大会即将开幕 为 AI 智能体设计记忆机制:揭秘 LinkedIn 的认知记忆智能体 获奖名单公布|2026主题征文第一期|分享你最有价值的龙虾场景与核心 Skill_热门活动_InfoQ写作社区官方_InfoQ写作社区
全网首份指令级拆解:看华为昇腾 950DT 芯片如何撬动 DeepSeek 75%降价与字节锁单
四月 · 2026-06-17 · via InfoQ - 促进软件开发领域知识与创新的传播

距离正式上线华为云还有两个月,华为的最新 AI 芯片昇腾 950DT,已经被提前放到了显微镜下。

近日,华尔街知名半导体研究机构 SemiAnalysis 已经率先拿到样机,围绕 950 系列运行 DeepSeek V4 的推理链路进行了 Trace 级拆解。

从芯片架构、并行调度、融合算子到 MoE 通信,报告深度解构了华为这款国产高端 AI 芯片是如何压榨极致性能,承接 DeepSeek V4 的核心推理负载需求的。(注:芯片的 Trace 分析是指利用专用软硬件记录芯片内部程序的运行轨迹、时序和性能数据)

值得注意的是,这不是一次普通的“适配”分析。SemiAnalysis 在报告中明确提到,DeepSeek V4 的部分架构,是为华为昇腾推理进行协同设计的,“in part co-designed for Huawei Ascend inference”。

也就是说,昇腾 950DT 并非在模型发布之后被动接入 DeepSeek V4,而是更早参与到了模型推理路径、硬件执行方式和软件栈优化的共同打磨中

这也是 950 系列真正值得关注的地方。它有望成为推动 DeepSeek 从英伟达底座 转向 国产昇腾底座的关键节点,而这种迁移与转向往往是不可逆的

过去,国产 AI 芯片一直被放在“能不能替代英伟达”的叙事下讨论。但 DeepSeek V4 把问题往前推了一步:它不是简单证明国产芯片能跑大模型,而是开始验证国产芯片能否支撑得起顶级模型的低成本、高并发推理。

DeepSeek V4 把 950DT 推向前台

在 DeepSeek V4 官方技术报告中,昇腾 950 已经与英伟达 H100/H800 一起进入硬件验证名单。950 系列可分为两个版本:950PR 面向 Prefill 和推荐场景,950DT 则面向 Decode 和训练场景。

前者解决当下供给,后者瞄准大模型推理里最烧钱的一段。

在训练端,由于此次 V4 放弃了多头注意力机制 MLA(Multi-head Latent Attention),首次采用了全新的压缩稀疏注意力机制 (CSA) 、高度压缩注意力机制 (HCA)架构。对此,华为官方直言“离不开昇腾 950 超节点的协同”。

推理端,V4 把百万上下文的价格打到 2 毛钱,较 Anthropic 便宜 50 倍左右,这背后同样少不了双方在底层芯片、推理框架、低精度计算和通信优化的共同作用。

换句话说,DeepSeek 的“价格屠夫”标签,不只是模型侧的胜利没,更是一场由模型架构、芯片带宽、编译器、融合算子、推理框架和云服务共同参与的成本战役。

昇腾 950DT 的含金量,正体现在它进入了 DeepSeek 这套成本结构的核心环节。

而这种成本优势,反映到市场上则是极具竞争力的商业价值。根据 Vercel 最新发布的 5 月 AI Gateway 生产指数,随着 4 月 DeepSeek V4 上线,DeepSeek 的 Token 流量份额从不足 1% 快速升至 17%,超越 OpenAI,位居第三,在一众海外模型中杀出重围。

图片

流量爆发的背后,价格是最直接的驱动力。

DeepSeek 早些时候在官网明确指出:“预计下半年昇腾 950 超节点批量上市后,Pro 的价格会大幅下调。”

图片

随后,便宣布 DeepSeek-V4-Pro API 永久降价至原价格的四分之一。这也直接印证了 V4 的 API 正深度依赖 950 部署,且成本结构仍有极大的优化空间。

图片

DeepSeek V4 的强大背书,给了 950DT “产品层面可验证”的底气,随即点燃了互联网大厂的采购热情。(注标题里的 BAT 指字节、阿里与腾讯)

4 月以来,昇腾 950 系列订单持续升温。据此前路透社报道,字节已拿下一半产能,阿里、腾讯分别跟进数十万颗。中国移动在 2026-2027 年度 AI 超节点设备集采清单中,也指定了 776 套昇腾节点设备,折合 6208 张 AI 加速卡。

所以,SemiAnalysis 的这份报告,不仅是全网首份在 950DT 正式上市之前、对其推理架构进行 trace 级别拆解的分析,也是 DeepSeek 与昇腾强耦合研发、国产大模型基于国产芯片进行原生开发的首次揭秘。

芯片架构:四个核心计算单元

950 系列共用同一颗 Ascend 950 Die,采用双 Die UMA(统一内存访问)架构——两颗 Die 通过高带宽总线直连,在操作系统层面呈现为单一设备,而不是两块需要显式通信的独立芯片。

图片

由于采用了不同的封装内存方案,950 系列分两个版本:950PR 和 950DT。

• 950PR(Prefill and Recommendation):今年 3 月已量产,面向推理预填充阶段和推荐系统,侧重成本优化

• 950DT(Decode and Training):搭载华为自研 HiZQ 2.0 内存,144GB 容量,带宽 4TB/s,专为

Decode 阶段和大模型训练设计,8 月上线华为云

Decode 阶段是典型的访存密集型任务,模型每次生成一个 token 都需要从内存里读大量 KV cache,带宽的提升直接对应吞吐的提升。这也是 950DT 命名里 "D" 的意义所在。

值得一提的是,华为在 CANN 内部代码库中,把昇腾 950 系列的代号定为 "David"。这个名字在多处源码文件中都有引用。

在某种程度上,也可以解读为,华为自己选择了”巨人对少年“的隐喻:弱者拒绝在强者最强的维度上竞争,用一个精准的点,打中对方的软肋。事实上,“以小博大”的精髓在昇腾和 DeepSeek 两个团队身上都有极致的展现。

图片

(注:David 出自《圣经·撒母耳记》。以色列少年牧童大卫(David)面对的是非利士人的巨人武士歌利亚(Goliath),身高近三米、全身铠甲。大卫没有跟他正面硬拼,而是用一根弹弓投出一颗石子,精准击中歌利亚额头,当场将其击倒。)

从芯片内部看,Ascend 950 Die 包含四类关键执行单元,后面所有优化都建立在这套分工之上。

图片

第一类是 AI Cube,也就是 AIC

它负责大模型里最重的矩阵和张量计算,包括矩阵乘 GEMM、注意力投影 attention projection、FFN 线性层等。相当于英伟达架构里的 Tensor Core,或 谷歌 TPU 里的 MXU。

第二类是 AI Vector,也就是 AIV

它负责逐元素向量操作,比如激活函数、归一化 RMSNorm、类型转换,以及矩阵计算前后的后处理。

昇腾在这里做了一个关键设计选择:AIC 和 AIV 是分离的独立核心,各自可以加载自己的代码段,并支持双主并行模式 dual-master mode,不需要互相等待。

这种分离让矩阵计算和向量计算能真正并发,而不是排队。

第三类是 AI CPU

它是一颗独立的、设备端 ARM64 核,直接挂在设备内存上,专门处理 SIMD/SIMT 核心不擅长的工作,比如分支密集的控制流、标量逻辑、动态 shape 处理,以及内核执行前需要根据实时数值计算的调度元数据。

这里最关键的是“设备侧”。

关键在"设备端"三个字:这类控制流如果交给主机 CPU 处理,就需要一次出芯片的往返传输,这也是延迟和流水线停顿的主要来源之一。AI CPU 则在芯片内部就地处理,省掉了这个往返。

第四类是 CCU,专用通信引擎

它专门处理集合通信的引擎,与计算核心并行工作,不占用 AI Core 的计算资源。

它支持“远端读 + 规约 + 本地写本地读 + 远端写”两种通信模式,让通信可以真正叠加在计算过程中,而不是等计算结束后再开始。

这对 MoE 模型尤其关键。

MoE 的专家可能分布在不同设备上。如果通信一直占用计算核心,或者造成大量 HBM 读写,MoE 省下来的计算成本就会被通信吃掉。

总结来看,AIC 主要负责矩阵计算 ,向量和后处理则交给 AIV,动态调度交给 AI CPU,CCU 负责跨设备通信。

950DT 的推理优化,不是靠某一个核心单点冲高,而是靠这四类单元最大程度的并行与重叠,以减少等待。

硬件能力能不能释放出来,全看这层

硬件架构只是底座,真正决定 DeepSeek V4 能不能高效跑起来的,其实是 CANN。

它的全称是 Compute Architecture for Neural Networks,是华为为昇腾打造的 AI 计算软件框架,对标 CUDA 的定位。2025 年 8 月,华为将 CANN 开源。

图片

CANN 的策略非常清晰:每当中国头部大模型发布,全套打包交付,包括针对模型的 kernel、量化方案、分布式推理配方、serving 集成。

这和过去很多“国产芯片完成适配”的口径不是一回事。适配解决的是能跑,但完整推理路径解决的是能不能部署、复现、优化地跑

比如,DeepSeek V4 对软件栈的要求尤其高。它不是一个普通稠密模型,而是包含长上下文、MoE、MTP、多种低精度格式,以及更复杂的 KV cache 压缩和稀疏注意力机制。只要其中某一环节,缺少适配都可能影响最终性能。

针对 DeepSeek V4,CANN 在模型发布当天,同步释放了完整的优化指南和 benchmark 数据,包括原生 MTP(多 token 预测)支持。

图片

CANN 处理 MTP benchmark 的方式值得一提:一般的多 token 测试存在一个隐患,测试数据集上的 draft token 接受率往往高于真实用户场景,导致发布的性能数字,比实际部署后的体验更漂亮。

华为的做法是把完整 decode step 的耗时(到最后一个 MTP 模块结束)作为计量单位,公布"每 step 耗时",让用户自己乘以实际接受率换算。

这是一种更保守,也更工程化的 benchmark 方法。

拆解一个单步解码:三层并行

SemiAnalysis 对 950DT 运行 DeepSeek Flash V4 的推理过程做了完整的 trace 分析,配置是 16-rank DP/EP 部署(16 路分布式专家并行)。

图片

DP 是数据并行,EP 是专家并行。16-rank 意味着这不是单卡 demo,而是在多 rank 参与的分布式 MoE 推理环境中观察真实执行链路。trace 里能看到 16 路并行设备参与集体通信,MoE 专家分发与结果合并通信也在持续发生。

图片

分析的核心是把一个 decode step 拆开来看。一个 decode step 不是一条串行的计算链,它在内部被拆分成多个 stream 流,在不同计算资源上尽量并发运行。

从 trace 看,CANN 至少做了三层重叠。

图片

第一层,计算和通信的重叠

多卡 MoE 推理里,每层网络完成后都有一次 dispatch(把 token 分发给各专家卡)和 combine(把专家输出汇聚回来)的集合通信操作。

传统做法:算完等通信,通信完再算,等待时间是纯粹的浪费。

CANN 把 AIC、AIV、CCU 分配到独立的 stream 上同时运行。从 trace 里能看到:

图片

• C4A Compressor 的执行时间完全消失——被隐藏在其他计算的阴影里

• 共享专家(shared expert)的计算隐藏在路由专家(routed expert)执行之下,且不影响路由专家本身的性能

• Prolog、Compressor、LightningIndexer 三个操作相互重叠运行

这意味着 CANN 在指令调度层面做了精细的资源分配:计算和通信在时间轴上几乎完全叠加,相互填满了对方的空隙。

第二层,AI CPU metadata 下沉

Decode step 开始前,有一类特殊的准备工作:根据当前序列长度、attention mask、分页 KV cache 的实时状态,计算出调度元数据:告诉每个计算核心,它负责哪个 batch、哪个 head、哪个 Q-block/K-block 的任务。

这类操作依赖运行时的实际数值,是分支密集的"控制类"任务,不适合放在矩阵核或向量核上跑。

传统解法:主机 CPU 处理,然后通过 PCIe 传回芯片。每一层都要这样做一次,加在一起就是不小的延迟。

CANN 的做法:把这个工作下沉到片上的 AI CPU,在设备内部就地完成。

从 trace 里看,Streams 145-148 对应这些元数据计算流——它们在 decode pass 开始时触发一次,预计算出可被后续内核复用的调度分区信息,耗时极短,且完全与 AI Core 的计算重叠。

SparseAttnSharedkv 和 QuantLightningIndexer 消费这些元数据,决定各计算核心的工作分配。

SemiAnalysis 指出,这个设计和 开源框架 FlashInfer 在主机侧为分页注意力做 planning 的思路一致,区别在于华为把 planning 下沉到了设备侧,省掉了出芯片往返的代价。在长上下文场景下,这个优化的收益更明显,因为需要 resolve 的序列分区信息更多。

另一个值得注意的细节是 Stream 152:它包含 LM head、最后一层,以及倒数第二层的 o_proj 和 MoE。这是 npugraph_ex(华为的图编译器)的决策——让主图在 Stream 144 就标记为"完成",而尾部操作在 Stream 152 继续异步执行。效果是解锁了更长的计算重叠窗口。

第三层,通信与计算合并进同一个 kernel

华为在 CANN 8.5,2024 年引入了 MC²(Merged Compute-Communication,通算融合)机制。

图片

这不是普通 kernel,也不是 HCCL 集合通信,而是把通信原语和计算操作合并进同一个算子里。在 DeepSeek V4 的 decode 路径中,SemiAnalysis 观察到了两个 MC² 专家并行算子:

• MoeDistributeDispatchV2

• MoeDistributeCombineV2

MoE 架构里,dispatch 和 combine 是每层都必须发生的通信操作,是多卡推理最主要的通信开销来源之一。

MC² 把这个开销折叠进了计算流程里——从外部可见的角度,集合通信(Collective Communication)与 矩阵乘法计算(Matmul)变成了同一件事。

Day 0 的变化

SemiAnalysis 在报告里做了一个对比:

去年 DeepSeek V3/R1 发布时,全球只有一个软件栈在 Day 0 完整支持推理:英伟达的 CUDA。

DeepSeek V4 发布时,实现 Day 0 完整支持的变成了两个:CUDA,和华为的 CANN。

AMD 的 ROCm 在 Day 0 几乎完全失效,推理吞吐低至每秒 1-2 个 token,完全不具备部署条件。

值得一提的是,英伟达自家的 TRT-LLM 在 Day 0 也存在一个显性 bug,隐藏状态被静默损坏,SemiAnalysis 自己提交 PR 才修复,整个过程花了 9 天以上。

所以说,Day 0 真正开箱即用的,是英伟达生态里的开源引擎 SGLang 和 vLLM,以及华为的 CANN。

而值得一提的是,其他主流国产 AI 芯片所谓的 Day0 支持主要是基于“类 CUDA”生态的软件栈。 某种程度而言,还是缺乏自主的软件生态。

这是代际变化,不是渐进追赶。而且这次变化的起点,是 DeepSeek V4 从架构设计阶段就和华为昇腾做了协同:新的注意力机制(HCA/CSA)、MoE 的量化方案、专家并行的通信设计,都考虑了昇腾硬件的执行路径。

CANN 证明了从第一天起就能交付完整的工程实现,不是“能跑”,是“优化好地跑”。这和其他国产芯片“宣称支持”的含义,不在同一个层面。

结 语

在《圣经》的隐喻里,巨人 Goliath 最终倒下了。但那个故事里的 Goliath 更多地被动地站在原地,被石头击中。而现实世界里,英伟达是一个一年一代新架构、持续在移动的目标。

Day 0 的表现证明了华为的工程执行力,但如今 DeepSeek V4 已经发布 40 多天,英伟达 GPU 的推理性能 与 950DT 拉开了多大距离? 是已经追上了,还是在某些场景已经反超?

图片

后续,SemiAnalysis 将用同一套基准测试跑完英伟达 H 系列、B 系列、AMD MI 系列,以及昇腾 950 的完整性能曲线和吞吐对比数据。我们会持续跟进。

参考链接:

https://newsletter.semianalysis.com/p/deepseekv4-16t-day-0-to-day-43-performance