惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

N
News and Events Feed by Topic
Malwarebytes
Malwarebytes
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
C
Cybersecurity and Infrastructure Security Agency CISA
F
Future of Privacy Forum
C
Cisco Blogs
T
The Exploit Database - CXSecurity.com
A
Arctic Wolf
S
Securelist
K
Kaspersky official blog
S
Schneier on Security
T
ThreatConnect
T
Tenable Blog
Spread Privacy
Spread Privacy
T
True Tiger Recordings
AWS News Blog
AWS News Blog
F
Fox-IT International blog
量子位
T
Threatpost
V
Vulnerabilities – Threatpost
C
CERT Recently Published Vulnerability Notes
Cisco Talos Blog
Cisco Talos Blog
GbyAI
GbyAI
宝玉的分享
宝玉的分享
腾讯CDC
G
Google Developers Blog
aimingoo的专栏
aimingoo的专栏
Cyberwarzone
Cyberwarzone
有赞技术团队
有赞技术团队
S
SegmentFault 最新的问题
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
V
Visual Studio Blog
U
Unit 42
雷峰网
雷峰网
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Simon Willison's Weblog
Simon Willison's Weblog
O
OpenAI News
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
The GitHub Blog
The GitHub Blog
The Register - Security
The Register - Security
MyScale Blog
MyScale Blog
小众软件
小众软件
A
About on SuperTechFans
Last Week in AI
Last Week in AI
Y
Y Combinator Blog
博客园 - 三生石上(FineUI控件)
美团技术团队
Google Online Security Blog
Google Online Security Blog
P
Proofpoint News Feed
MongoDB | Blog
MongoDB | Blog

爱范儿

多给一点冗余,说不定真能让通勤路变得有些不一样。 早报|国产手机618前集体降价/微信解释「2 分钟内可撤回」/买智能手表以后不能再刷医保 它还说「何以览胜,唯有泰山」。 2026 年的旗舰耳机,不能只是耳机 要成为 OpenAI 最赚钱的产品 卖到莱茵河流域去。 一台「平平无奇」的好手机 早报|雷军:手机越来越贵,建议现在就换/特斯拉监督版FSD将入华/努比亚总裁:豆包手机真可以订餐厅 跑车级 SUV,首先得是一台好用的 SUV。 「另一个我」,可能比你想象的更早上线 人生如歌,无须耳朵,且用心听。 全功能GPU,全场景AI算力 早报|448元,iPhone绝版配件回归/Meta用员工键鼠数据训练AI,扎克伯格:外包不够聪明/GoPro考虑出售或合并 用规模为未来铺路。 硬件扎实,系统优化。 这次 iQOO 给玩家的,是 iQOO15T 和 iQOO Pad6 Pro 共同构成的一套兼顾方案——竞技和沉浸,可以在同一个生态里完成。 给 Gemini 完整的一生 vivo S60 系列:今天,把星星海握在手里 早报|Google发布一大波AI更新/华为五一假期领跑中国手机市场/小米YU7 GT刷新纽北纪录 新的 Gemini 3.5、Agent 产品、视频模型都来了 在极氪 009 上,你也能面对面聊天了。 让 PC 真正开始「理解」人 6 月 9 日,不见不散 复古家族又添一员。 一代经典落幕。 早报|苹果开启WWDC邀请,将公布苹果AI新进展/问界M9设计师点赞理想L9内饰/国家反诈中心App上线「AI内容鉴定」 把旗舰制程下放到入门产品上,英特尔这是想开了? 用自己的信誉为车辆品质托底,是魏建军决战高端新能源的决心。 明面上算力是最关键要素?暗地里,其实是数据…… 你今天🔥Token 了吗 昊铂需要让产品被更多人知道。 但 AI 真的有「摄影眼」吗? 早报|马耳他为全民买单ChatGPT会员/卢伟冰预判年底国产直板旗舰破万元/曝苹果新Siri聊天记录可自动删除 早报|华为Mate X7官方降价1000元/Anthropic估值超越OpenAI/国行Switch正式停服 好就是大。 把家装进车里,把纯电融进增程。 鸿蒙智行的首款 MPV,献给预算充足的老板们。 持币观望,是目前的最佳选择 一场针对 AI 的大型猎巫 腾讯的 AI 王牌是微信 早报|OpenAI或将起诉苹果/iPhone 17 Pro官降1000元/影石CEO回应Luna定价贵:5299是美国价格 AI 人机交互,迎来十字路口 锐意向前。 液压底盘,让方程豹告别千斤顶。 AI 时代的价值坐标正在被重建。 让人愿意戴,并且愿意长时间戴,这就是智能穿戴产品最重要的优势。 早报|元宝推出一键总结微信聊天/曝苹果探索将AI Agent引入App Store/小米 17 Max官宣本月发布 管 agent 要像管人一样,懂得「驭臣之术」…… 高刷、高刷,还是高刷 Y600 Pro 可能是 vivo 今年最重要的一款产品。它不一定最贵、不一定最亮眼,但它代表了 vivo 这家公司对入门级市场的一次重新理解 —— 这个档位的用户要的是什么,不再由旗舰来定义。 让 Android Auto 和 Google Built-in 更适应不同车型和不同屏幕,同时继续与苹果 CarPlay 竞争。 大疆 Pocket 4P 上手体验:欲穷千里目,更多摄像头 拳打 iPhone,脚踢 Galaxy 比 1000 马力更敏感的,是重量。 设备一直在变,但芯片作为中枢的地位不变。 给 Gemini 不止一个身体 一个行业的终结 早报|Android 17转型智能系统,深度整合AI/腾讯:微信已读和访客功能「已焊死」,不会开发/李想:理想自研芯片不是跟风 用算力对抗经验。 我将以高达形态出击! Google 的大招是图像、文本、视频轮着来 汽车早已不仅仅是一种交通工具。 想要什么格式就什么格式 YU7 GT 秀肌肉、提品牌、战全球;YU7「青春版」 降门槛、保销量、拼刺刀。 早报|曝苹果新Vision Pro研发已暂停,团队分拆/黄仁勋:AI让所有人站上同一条起跑线/微信状态将推出「访客记录」 失去车顶,不失下压力。 重点是:人无我有。 最好的 AI 载体,需要一个 AIOS 全球 AI 顶会,快成中国卷王的专场了。 去读书,更去读那些真正有作者的书。 你拿 AI 写代码,AI 给你种木马 AI 时代最反焦虑的演讲 AI 时代,编程能力更珍贵了 早报|微信灰测「组合支付」功能/苹果或重新设计macOS27「液态玻璃」/哈啰回应员工脚踩青桔美团 早报|中汽协辟谣8家车企锁电被约谈/曝苹果正在研发全息iPhone/李想回应理想L9四年换代:汽车不是手机 车市又将血雨腥风。 快不是新闻,一直快才是。 理想内饰的新阶段,由 L9 Livis 开始。 让普通家庭跨入高品质出行的门槛。 当匠心遇上算力。 淘汰赛的进程正在加速。有些品牌注定会在这个周期里倒下。 一个不懂死亡的小男孩,攒了 15 块钱,想给去世的奶奶烧一部手机 三排六座,定位高于雷克萨斯 RZ。 早报|小米增程SUV 曝光,但不叫YU9/苹果与英特尔达成初步芯片代工协议/Cloudflare用AI裁掉20%员工 苹果的第一款 AI 穿戴产品,将是 AirPods。 AI 硬件必须先沿着「手机」的路走出来,然后才有资格谈「革手机的命」 一款车盘活整个广汽新能源。 你还发现了 AI 的哪些口癖 苹果 AI 硬件最激进的赌注,撞上了全球最严的隐私墙。 如果连品牌自身都要留一条退路,消费者又凭什么要坚定地选择你? 早报|曝苹果考虑取消入门款MacBook Neo/理想高管谈MEGA设计争议:不是失败/千问PC端上线AI语音输入 「请稍等片刻」 聊着天,就把视频做了 AI 时代的新「键盘」长这样 28 年控制终结!保时捷出售布加迪全部股份,作价 70 亿元 早报|DeepSeek首轮融资曝光,估值450亿美元/谷歌称Android不会推出「液态玻璃」/三星宣布在中国大陆停售所有家电产品 第十一代雅阁,还得扛 4 年。 独显配风扇,新一代性能旗舰的标配 是伸张正义还是背刺 屏幕常亮,心态常好。
国产闭环,框架国产,芯片国产,模型国产,方法论自主
Selina · 2026-05-25 · via 爱范儿

一个 8B 参数的大模型,通常需要约 16GB 显存。参数越多,越吃显存,这就是为什么,内存价格一天比一天高。

现在,有一种方法,可以省下 6 倍显存,却几乎不损耗模型性能。

过去两年,围绕这个看似极端的思路,一条全球性的技术竞赛正在成型。而就在这条赛道上,一个完全基于国产算力的方案,刚刚给出了自己的第一个回答。

模型被压到了不到 3B,同时,能力却可以保留 97%,甚至更进一步,如果结合 MoE 架构,未来可以直接在一部 8GB 内存的手机,运行 600 亿参数的大模型。

听上去匪夷所思,怎么做到的?

三个值,能跑大模型吗

传统大模型用非常精确的数字存储,意味着每个权重可以取几万种不同的数值,精度很高,但也很占内存。三值量化是一个极端的反向操作:直接把可选的数值从几万种砍到三种。技术上,这被称为 1.58-bit,因为编码三个值恰好需要约 1.58 个二进制位。

这个压缩有多极端?打个比方:如果传统大模型的权重是一幅全彩照片,三值量化就是把它压成只有黑、白、灰三色的极简图形。

直觉上你会觉得这必然损失惨重。但过去两年的研究反复证明,模型权重里存在大量冗余信息。三个值,如果分配得当,足以承载绝大部分的模型能力。

这不是一个新概念。2024 年,微软研究院发布了 BitNet b1.58,第一次系统论证了三值大模型可以逼近全精度模型的性能。微软随后在去年进一步发布了 BitNet b1.58 2B4T,一个 20 亿参数、4 万亿 token 训练的开源三值模型。上个月,美国公司 PrismML 发布了 Ternary Bonsai 系列,宣称是首批商业可用的 1.58-bit 模型。

上:Llama FP16架构,下:微软研究院开发的BitNet架构

学术界也同样在跟进:Tequila 提出了解决三值量化中「死权重陷阱」的新方法,TernaryLM 探索了从零开始的原生三值训练。

一条全球赛道正在成型。但有一个关键问题始终没有被回答:

三值大模型训练,能在国产算力上跑通吗?

昇腾上的第一次

这一次,在华为鲲鹏昇腾开发者大会(KADC 2026)上,面壁智能给出了答案。

BitCPM-CANN 是面壁智能联合清华大学、OpenBMB 开源社区发布的三值大模型系列。它的意义不仅在于「又发了一个三值模型」。在全球赛道上,BitCPM-CANN 做到了三个此前没有人做到的事情。

第一次,在华为昇腾上端到端完成三值大模型训练。此前所有公开的三值模型训练都在 NVIDIA GPU 上完成。国产芯片阵营第一次拥有了自己的三值训练能力。
第一次,一次性把规模推到 8B。此前昇腾上的低比特训练停留在较小规模的验证阶段。BitCPM-CANN 直接发布了 0.5B、1B、3B、8B 四个档位,覆盖从手机到 PC 的完整端侧场景。
第一次,实现了与全精度模型的完整对照评测。11 项任务、四大类评测(常识、阅读理解、学科知识、数学推理),1B 到 8B 档位的能力保留率在 95.7%到 97.2%之间。

97.2%的能力保留率意味着什么?在 ARC、CMMLU、GSM8K 等主流评测中,BitCPM-CANN 三值模型与同尺寸 MiniCPM4 全精度模型的差距,已经小于许多全精度模型之间的差距。其中,3B 档位的保留率最高,达到 97.2%。

而且,这不只是论文里的数字,是能真正可以「拿来就用」的成果。BitCPM-CANN 的全部尺寸版本已经开源,0.5B 到 8B 四个档位都可以直接下载复现。

对于熟悉面壁智能 MiniCPM 系列的开发者来说,BitCPM-CANN 就是 MiniCPM 家族的三值版本,还是一套生态。在同一个 GitHub 社区,家族前辈积累了 3 万颗星、Hugging Face 总下载量超 3000 万的「家产」,现在生长出来了新的方向。

6 倍显存,从服务器到手机都「吃到红利」

相比 BF16 全精度模型,BitCPM-CANN 节省约 6 倍显存,这个数字开发者最能直接感知:一个 8B 参数的全精度模型需要约 16GB 显存,BitCPM-CANN 三值版本不到 3GB,可以流畅运行在一部手机上,配合 MoE 与激活范围约束,60B 规模的模型有望装入终端设备。

硬件端也已经准备好了。高通最新的旗舰芯片 8850 和 8397 支持 2-bit 原生推理,BitCPM-CANN 提供的恰好是可以直接喂进去的低比特权重。

芯片厂商等供给,模型厂商等芯片,现在两边同时到位了,怎么不是一种「双向奔赴」。

手机厂商对端侧大模型的投入一直在加速。上周 Google I/O 上,Gemini Intelligence 全面接管 Android 设备,从手机到手表到车机;苹果也将在 6 月 WWDC 上展示下一代 Apple Intelligence 的重大升级。

两大手机操作系统同时发力,共同指向一个现实:手机端侧要跑越来越强的 AI,内存就是最硬的瓶颈。谁能用更少的内存跑更强的模型,谁就掌握了下一轮竞争的主动权。

实际上,如果结合整个 AI 产业正在经历的阵痛,价值又会更上一层楼:4 月时,高盛把全年 DRAM 价格涨幅预期上调到 280%,美银预估全球 HBM 市场将达到 546 亿美元。

AI 基础设施最紧缺的资源就是内存,6 倍显存红利意味着不增加物理内存,就能把模型能力提升数倍。在内存持续涨价的情况下,这不是优化,是刚需。

三值量化不是「用精度换内存」的妥协。当 97%的能力被保留下来时,说明传统 16 位模型里大量的精度可能是冗余的。三个值,足以承载一个大模型的绝大部分知识。低比特不再是工程上的节省手段,而是一种新的权重知识承载方式。

为什么是面壁智能,为什么是现在

当 AI 从云端走向终端,端侧模型正在成为个人智能设备的核心能力。手机、电脑、车机,每一个贴近用户的终端都在等一个足够小、足够强、足够省内存的模型。这条赛道的胜负手,不会是那些只会把模型做大的团队,而是能把模型做小、做轻、做到真正能跑起来的玩家。

为什么是面壁智能,能在端侧大模型这条路上,一直走在前沿?这个问题的答案不在 BitCPM-CANN 本身,而在这家公司过去几年,一直在做的一件看起来有些「不合群」的事。

面壁智能从成立之初就押注效率,在国内大多数团队追逐更大模型的时候,他们花了大量时间做底层训练框架 BM-Train,解决「怎么用更少的资源,训出足够好的模型」,这套基础设施积累是后来一切的起点。

在 1.58-bit 方向上,面壁智能的判断早于行业共识。许多数团队还在犹豫极低比特是否可行时,面壁智能就选定了这条路线,先在 GPU 上跑通了完整的训练流程和方法论,再整体迁移到昇腾平台上。可以说,BitCPM-CANN 不是把一个模型移植到了国产芯片上,而是把一整套经过验证的训练方法、效率路线和工程体系,搬进了国产算力的底座。

在模型层面,面壁智能的端侧模型 MiniCPM 系列在 GitHub 上积累了超过 3 万颗星,Hugging Face 开源总下载量超过 3000 万,是端侧大模型领域最受欢迎的中国开源模型家族。

BitCPM-CANN 正是 MiniCPM 家族向三值量化的延伸,远不止一个展示性的「PPT 模型」,是一个真正可复用的工程地基。它背后的训练链路已经被沉淀为昇腾低比特训练的基础设施,后续所有想在昇腾上做低比特训练的团队,都可以在同一套底座上起步。

值得一提的是,BitCPM-CANN 还在华为昇腾上完成了端到端的三值训练,训练效率达到常规基线的 95%。这证明了这套方法论不依赖特定硬件平台,国产算力同样可以跑通。

不是等硬件变得足够强大来适应模型,要让模型变得足够聪明来适应硬件。

从训练端的华为昇腾,到推理端的终端芯片,再到开源的模型和训练脚本,这是一条完整的国产闭环,框架国产,芯片国产,模型国产,方法论自主。面壁智能的下一步已经明确:进一步提升模型的能力保留率,用 MoE 架构扩展更大规模模型的容量,把 6 倍显存红利完整释放到部署中。更长远的目标,是覆盖从预训练到对齐的全流程低比特化。

从底层训练框架 BM-Train,到端侧模型家族 MiniCPM,再到 BitCPM-CANN,面壁智能用几年时间搭建了一套完整的端侧大模型技术体系。在全球赛道上,面对微软、PrismML,面壁智能展现出了独特的不同优势之处在于:从框架、方法论、模型到芯片适配,构建了一条完整的端侧技术路线。

当 AI 竞争从「谁的模型更大」转向「谁能让智能真正跑在每一台设备上」时,掌握端侧技术话语权的人,才站在了最有利的位置。