国产闭环，框架国产，芯片国产，模型国产，方法论自主

一个 8B 参数的大模型，通常需要约 16GB 显存。参数越多，越吃显存，这就是为什么，内存价格一天比一天高。

现在，有一种方法，可以省下 6 倍显存，却几乎不损耗模型性能。

过去两年，围绕这个看似极端的思路，一条全球性的技术竞赛正在成型。而就在这条赛道上，一个完全基于国产算力的方案，刚刚给出了自己的第一个回答。

模型被压到了不到 3B，同时，能力却可以保留 97%，甚至更进一步，如果结合 MoE 架构，未来可以直接在一部 8GB 内存的手机，运行 600 亿参数的大模型。

听上去匪夷所思，怎么做到的？

三个值，能跑大模型吗

传统大模型用非常精确的数字存储，意味着每个权重可以取几万种不同的数值，精度很高，但也很占内存。三值量化是一个极端的反向操作：直接把可选的数值从几万种砍到三种。技术上，这被称为 1.58-bit，因为编码三个值恰好需要约 1.58 个二进制位。

这个压缩有多极端？打个比方：如果传统大模型的权重是一幅全彩照片，三值量化就是把它压成只有黑、白、灰三色的极简图形。

直觉上你会觉得这必然损失惨重。但过去两年的研究反复证明，模型权重里存在大量冗余信息。三个值，如果分配得当，足以承载绝大部分的模型能力。

这不是一个新概念。2024 年，微软研究院发布了 BitNet b1.58，第一次系统论证了三值大模型可以逼近全精度模型的性能。微软随后在去年进一步发布了 BitNet b1.58 2B4T，一个 20 亿参数、4 万亿 token 训练的开源三值模型。上个月，美国公司 PrismML 发布了 Ternary Bonsai 系列，宣称是首批商业可用的 1.58-bit 模型。

▲

上：Llama FP16架构，下：微软研究院开发的BitNet架构

学术界也同样在跟进：Tequila 提出了解决三值量化中「死权重陷阱」的新方法，TernaryLM 探索了从零开始的原生三值训练。

一条全球赛道正在成型。但有一个关键问题始终没有被回答：

三值大模型训练，能在国产算力上跑通吗？

昇腾上的第一次

这一次，在华为鲲鹏昇腾开发者大会（KADC 2026）上，面壁智能给出了答案。

BitCPM-CANN 是面壁智能联合清华大学、OpenBMB 开源社区发布的三值大模型系列。它的意义不仅在于「又发了一个三值模型」。在全球赛道上，BitCPM-CANN 做到了三个此前没有人做到的事情。

第一次，在华为昇腾上端到端完成三值大模型训练。此前所有公开的三值模型训练都在 NVIDIA GPU 上完成。国产芯片阵营第一次拥有了自己的三值训练能力。

第一次，一次性把规模推到 8B。此前昇腾上的低比特训练停留在较小规模的验证阶段。BitCPM-CANN 直接发布了 0.5B、1B、3B、8B 四个档位，覆盖从手机到 PC 的完整端侧场景。

第一次，实现了与全精度模型的完整对照评测。11 项任务、四大类评测（常识、阅读理解、学科知识、数学推理），1B 到 8B 档位的能力保留率在 95.7%到 97.2%之间。

97.2%的能力保留率意味着什么？在 ARC、CMMLU、GSM8K 等主流评测中，BitCPM-CANN 三值模型与同尺寸 MiniCPM4 全精度模型的差距，已经小于许多全精度模型之间的差距。其中，3B 档位的保留率最高，达到 97.2%。

而且，这不只是论文里的数字，是能真正可以「拿来就用」的成果。BitCPM-CANN 的全部尺寸版本已经开源，0.5B 到 8B 四个档位都可以直接下载复现。

对于熟悉面壁智能 MiniCPM 系列的开发者来说，BitCPM-CANN 就是 MiniCPM 家族的三值版本，还是一套生态。在同一个 GitHub 社区，家族前辈积累了 3 万颗星、Hugging Face 总下载量超 3000 万的「家产」，现在生长出来了新的方向。

6 倍显存，从服务器到手机都「吃到红利」

相比 BF16 全精度模型，BitCPM-CANN 节省约 6 倍显存，这个数字开发者最能直接感知：一个 8B 参数的全精度模型需要约 16GB 显存，BitCPM-CANN 三值版本不到 3GB，可以流畅运行在一部手机上，配合 MoE 与激活范围约束，60B 规模的模型有望装入终端设备。

硬件端也已经准备好了。高通最新的旗舰芯片 8850 和 8397 支持 2-bit 原生推理，BitCPM-CANN 提供的恰好是可以直接喂进去的低比特权重。

芯片厂商等供给，模型厂商等芯片，现在两边同时到位了，怎么不是一种「双向奔赴」。

手机厂商对端侧大模型的投入一直在加速。上周 Google I/O 上，Gemini Intelligence 全面接管 Android 设备，从手机到手表到车机；苹果也将在 6 月 WWDC 上展示下一代 Apple Intelligence 的重大升级。

两大手机操作系统同时发力，共同指向一个现实：手机端侧要跑越来越强的 AI，内存就是最硬的瓶颈。谁能用更少的内存跑更强的模型，谁就掌握了下一轮竞争的主动权。

实际上，如果结合整个 AI 产业正在经历的阵痛，价值又会更上一层楼：4 月时，高盛把全年 DRAM 价格涨幅预期上调到 280%，美银预估全球 HBM 市场将达到 546 亿美元。

AI 基础设施最紧缺的资源就是内存，6 倍显存红利意味着不增加物理内存，就能把模型能力提升数倍。在内存持续涨价的情况下，这不是优化，是刚需。

三值量化不是「用精度换内存」的妥协。当 97%的能力被保留下来时，说明传统 16 位模型里大量的精度可能是冗余的。三个值，足以承载一个大模型的绝大部分知识。低比特不再是工程上的节省手段，而是一种新的权重知识承载方式。

为什么是面壁智能，为什么是现在

当 AI 从云端走向终端，端侧模型正在成为个人智能设备的核心能力。手机、电脑、车机，每一个贴近用户的终端都在等一个足够小、足够强、足够省内存的模型。这条赛道的胜负手，不会是那些只会把模型做大的团队，而是能把模型做小、做轻、做到真正能跑起来的玩家。

为什么是面壁智能，能在端侧大模型这条路上，一直走在前沿？这个问题的答案不在 BitCPM-CANN 本身，而在这家公司过去几年，一直在做的一件看起来有些「不合群」的事。

面壁智能从成立之初就押注效率，在国内大多数团队追逐更大模型的时候，他们花了大量时间做底层训练框架 BM-Train，解决「怎么用更少的资源，训出足够好的模型」，这套基础设施积累是后来一切的起点。

在 1.58-bit 方向上，面壁智能的判断早于行业共识。许多数团队还在犹豫极低比特是否可行时，面壁智能就选定了这条路线，先在 GPU 上跑通了完整的训练流程和方法论，再整体迁移到昇腾平台上。可以说，BitCPM-CANN 不是把一个模型移植到了国产芯片上，而是把一整套经过验证的训练方法、效率路线和工程体系，搬进了国产算力的底座。

在模型层面，面壁智能的端侧模型 MiniCPM 系列在 GitHub 上积累了超过 3 万颗星，Hugging Face 开源总下载量超过 3000 万，是端侧大模型领域最受欢迎的中国开源模型家族。

BitCPM-CANN 正是 MiniCPM 家族向三值量化的延伸，远不止一个展示性的「PPT 模型」，是一个真正可复用的工程地基。它背后的训练链路已经被沉淀为昇腾低比特训练的基础设施，后续所有想在昇腾上做低比特训练的团队，都可以在同一套底座上起步。

值得一提的是，BitCPM-CANN 还在华为昇腾上完成了端到端的三值训练，训练效率达到常规基线的 95%。这证明了这套方法论不依赖特定硬件平台，国产算力同样可以跑通。

不是等硬件变得足够强大来适应模型，要让模型变得足够聪明来适应硬件。

从训练端的华为昇腾，到推理端的终端芯片，再到开源的模型和训练脚本，这是一条完整的国产闭环，框架国产，芯片国产，模型国产，方法论自主。面壁智能的下一步已经明确：进一步提升模型的能力保留率，用 MoE 架构扩展更大规模模型的容量，把 6 倍显存红利完整释放到部署中。更长远的目标，是覆盖从预训练到对齐的全流程低比特化。

从底层训练框架 BM-Train，到端侧模型家族 MiniCPM，再到 BitCPM-CANN，面壁智能用几年时间搭建了一套完整的端侧大模型技术体系。在全球赛道上，面对微软、PrismML，面壁智能展现出了独特的不同优势之处在于：从框架、方法论、模型到芯片适配，构建了一条完整的端侧技术路线。

推荐订阅源

爱范儿

三个值，能跑大模型吗

昇腾上的第一次

6 倍显存，从服务器到手机都「吃到红利」

为什么是面壁智能，为什么是现在