惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

V
Visual Studio Blog
MongoDB | Blog
MongoDB | Blog
Engineering at Meta
Engineering at Meta
云风的 BLOG
云风的 BLOG
Microsoft Azure Blog
Microsoft Azure Blog
B
Blog RSS Feed
T
The Exploit Database - CXSecurity.com
P
Privacy & Cybersecurity Law Blog
Know Your Adversary
Know Your Adversary
月光博客
月光博客
I
InfoQ
阮一峰的网络日志
阮一峰的网络日志
NISL@THU
NISL@THU
爱范儿
爱范儿
S
Securelist
博客园 - 叶小钗
C
CERT Recently Published Vulnerability Notes
Recorded Future
Recorded Future
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
aimingoo的专栏
aimingoo的专栏
D
DataBreaches.Net
G
GRAHAM CLULEY
P
Proofpoint News Feed
A
About on SuperTechFans
Google DeepMind News
Google DeepMind News
C
Cyber Attacks, Cyber Crime and Cyber Security
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
T
Tor Project blog
Stack Overflow Blog
Stack Overflow Blog
T
Threat Research - Cisco Blogs
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
Hugging Face - Blog
Hugging Face - Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Recent Announcements
Recent Announcements
P
Proofpoint News Feed
The GitHub Blog
The GitHub Blog
The Cloudflare Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
Last Week in AI
Last Week in AI
Y
Y Combinator Blog
Jina AI
Jina AI
大猫的无限游戏
大猫的无限游戏
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
罗磊的独立博客
博客园 - 【当耐特】
H
Help Net Security
F
Fortinet All Blogs
T
The Blog of Author Tim Ferriss

少数派

派早报:Google 发布 Fitbit Air 等 - 少数派 「新人报到」確認需求,再開始 - 少数派 从 SOLO 独立开发者社区,我看到了越来越多开发者开始做自己的产品 - 少数派 我怎么管理那些"不常做,但总会忘"的生活事项 - 少数派 人形机器人量产元年,数据才是具身智能的“生死线” - 少数派 BuhoLaunchpad 高度还原 Mac 启动台:开发历程与思考 - 少数派 五年陪伴依然不舍,DIY 换壳后让罗技 MX Master 3 继续服役 - 少数派 新玩意 240|少数派的编辑们最近买了啥? - 少数派 一日一技|为什么你应该关闭 iOS 的键盘声音 - 少数派 我做了个插件和 Skills,一键提取任何网站的设计规范 Design.md - 少数派 住在三四线城市的你,该开始录播客了 - 少数派 甘南秘境,大白高国 - 少数派 AI的审美:谁让把我变成川内倫子 - 少数派 返工怎能不烦恼,打工人片单总有一部是你的「嘴替」 - 少数派 为了让「上厕所」更健康,我做了一个小工具 - 少数派 AI + Skill,能够让生成的文章去除 AI 味吗? - 少数派 新玩意|韶音OpenDots ONE 耳夹式耳机 - 少数派 《美满》| 在每一个春天的晚上相爱(362) - 少数派 新玩意|优篮子 PS01 MagSnap 磁吸支架 - 少数派 自我整合手记 | 我开始早睡了:用稳定规则,为自由托底 - 少数派 用龙虾(OpenClaw)两个多月,我最深的12个体会 - 少数派 听歌时间到,12 张你可能错过的 2025 华语乐坛好专辑 - 少数派 承诺能追吗 - 少数派 macOS 26启动台没了? 我做了个不一样的App启动器 - Keboard - 少数派 《四海为家的人》| INTJ对话INTJ(361) - 少数派 你发过的那些黑历史,是时候一次清干净了 - 少数派 新玩意:安安静静玩,越玩越专注:计客密码机 - 少数派 iPad 用户首次体验 Android 平板:vivo Pad6 Pro - 少数派 数据逻辑强 - 少数派 极北行+ | 一路向北,探访日本至北之地 | 001 - 少数派 万字剖析:千问App深度体验报告(2026) - 少数派 在2026年,如何真正防止别人抄袭你的作品 - 少数派 怎么用 50 块搭个 AI 语音助手?我踩了 3 天坑 - 少数派 YeeroAI:让 AI 对话真正成为知识管理的一部分 - 少数派 爬泰山 - 少数派 「旅图显影」 App 更新:这次,我们补上了一点「手感」 - 少数派 假期出门太折磨?我的 23 条经验帮你规划惬意旅行 - 少数派 工作流会变吗 - 少数派 Claude Opus 4.6 怎么用最省钱?我测了 5 种方案 - 少数派 GPT Image 2 让图文并茂不再稀罕 - 少数派 用户侧出发——什么是AI,我要不要学习? - 少数派 找片、转存、整理、播放一条龙!让你的付费网盘值回票价 - 少数派 欢迎试用!日课一问2.0插件 - 少数派 自己做的MDeditor,原本想购买 Typora 试了两次支付不成功,干脆自己做一个 - 少数派 vibe coding了一个 3MB 的小工具,让 ~/Downloads 彻底告别混乱 - 少数派 因为受不了 Mac 的风扇策略,我做了一个风扇控制工具 - 少数派 别只怪模型 - 少数派 Warp 终端的 AI 功能怎么用?我测了一周的体验 - 少数派 AI 写代码老是出 bug?这 5 个配置我后悔没早知道 - 少数派 「新玩意」苹果出相机可能就这样:Sigma BF + 45mm F2.8 DG Contemporary - 少数派 一个面向2030年的AI操作系统是什么样子的:浅谈cola这款有灵魂的Agent - 少数派 别只看写代码 - 少数派 每天解决10个问题,还是一口气攻坚解决400个? - 少数派 AI 交易机器人怎么搭?我用 Claude 跑了一周实盘 - 少数派 Maptoposter Online:把你爱的城市画成艺术海报 - 少数派 Function Calling 怎么用?我测了 3 个模型发现差距真大 - 少数派 Legend Talk:我做了个 AI 圆桌,让 160 位思想家围着你的问题转 - 少数派 如何找到自己的蓝方?在小县城寻找压力测试 - 少数派 语音输入与软件接口|2026年聊AI时,我们都聊些什么(上) - 少数派 混动已经卖爆,纯电又来补刀——钛7闪充版简直“不讲武德” - 少数派 本月玩什么|朋友收藏、识质存在、沙罗周期 - 少数派 为什么要每天坚持输出? - 少数派 Claude API 挂了好几个小时,你的项目有备用方案吗? - 少数派 Function Calling 没你想的复杂——我用它做了个有点用的工具 - 少数派 登录系统立即播放视频或者图片音乐的软件 - 少数派 我为什么创建 FlipHTML5 下载工具 - 少数派 残局没电?多品牌外设电量统一管理软件EasyBluetooth已支持RTSS游戏内显示以及AIDA64 - 少数派 前往通义路的路 - 少数派 太好看了,媲美Sun的个人导航页,NAS部署星云门户 - 少数派 乌黑嘴唇“一键检测”上线了 - 少数派 派早报:Claude AI 接入多个创意软件生态、FILCO 生产方接手品牌等 - 少数派 【更新】BearCLI、Claude 连接器与 MCP 服务器 - 少数派 记了上千条流水,还是看不懂财务?我做了一个让 AI 读懂账本的工作台 - 少数派 MINI R56 升级原厂 Sport 模式 - 少数派 新玩意 | 一棵柠檬树(仿真版) - 少数派 Momenta的“物理AI”野望,需迈过“含摩量”这道关 - 少数派 网页直接投屏控制手机!NAS一键部署PandaScrcpy,流畅丝滑可远程。 - 少数派 众测|邀你一同探索随身 AI 硬件入口 YoooClaw C·ONE - 少数派 2050大会:分享时间是真诚 参会记 - 少数派 iPad 赋能电影创作:国内首部宣纸手绘长片《燃比娃》的幕后故事 - 少数派 AI的审美:我用 8 个大模型给 100 张旅行照片打分 - 少数派 普通人如何破圈?去参加一个本地协会 - 少数派 把极空间的图标全换了,主题DIY全攻略打造你的专属NAS桌面 - 少数派 电子便签墙,帮你实现便签自由 - 少数派 我如何用三个 CLI 工具取代文档创建需求 - 少数派 原来真的有人可以玩一辈子 - 少数派 社区速递 139 | 派友热议三月买了啥、复古单反尼康 Df 体验 - 少数派 06 作品的赏析与评价 - 少数派 TDS REVIEW|索尼 WF-1000XM6 降噪真无线耳机体验 - 少数派 35.98万起售的第二代腾势D9,我看重的不是堆料,而是不凑合 - 少数派 鼠须管 Squirrel 皮肤配置指北 - 少数派 从watch ultra2换到redmi watch6 - 少数派 派早报:阿里巴巴发布视频生成模型 HappyHorse 1.0 等 - 少数派 别迷信1M - 少数派 家人们天塌了!网盘“大封杀”,多个渠道多条路,NAS部署PanHub - 少数派 AI与人勾心斗角!NAS一键部署AI狼人杀,假日休闲必备。 - 少数派 电商必备!Comfyui工作流批量生图插件,一次生成12张!支持Nano banana pro模型 - 少数派 Comfyui工作流配置Gpt-image-2模型教程,0.03/张 - 少数派 OpenClaw第三方APi怎么配置?可使用Gpt-image-2模型 - 少数派 会员社区话题精选 Ep. 103 - 少数派
SOTA模型也能“全栈国产”?智谱联合昇腾和昇思给出了硬核答案 - 少数派
2026-01-16 · via 少数派

过去两年里,国内AI圈有一个心照不宣的“焦虑”:国产算力已经满足了大规模的模型推理需求,可大模型的训练,特别是SOTA级模型的预训练,还是无法摆脱对英伟达生态的依赖。

2026年注定是一个分水岭。

刚登陆港股市场的智谱,发布了新一代图像生成模型GLM-Image,在文字渲染的权威榜单中达到了开源SOTA水平,并在“出生证明”上写了一段关键信息:模型自回归结构基座基于昇腾Atlas 800T A2设备与昇思MindSpore AI框架,完成了从数据预处理到大规模训练的全流程构建,验证了在自主创新算力底座上训练前沿模型的可行性。

全流程、SOTA、自主创新算力底座……每一个词,都是对“国产算力不好用”等刻板印象的有力回击。同时也预示着,国产算力已经从“跑推理”正式迈向“数据预处理+预训练+SFT微调+RL训练”的端到端全流程,从“能用”进阶到了“好用”。

01 一场“地狱级”难度的压力测试

在讨论算力前,有必要先理解GLM-Image的“含金量”。

如果只是训练一个“二流模型”,对算力的考验也是“二流”的,而智谱瞄准了下一代技术范式——认知型生成。

过去的图像生成模型,普遍存在“智商不够”的瓶颈。比如让AI画一张“关于量子力学的科普海报”,可以画出炫酷的原子结构和星空背景,但上面的文字却是乱码,典型的“视觉强,认知弱”。

智谱GLM-Image没有照搬开源常用的LDM方案,采用了创新的“自回归+扩散编码器”混合架构,属于兼具世界知识与推理能力的“认知型生成”,不仅要会画画,还要理解物理规律、逻辑关系和文字符号。

可以简单地比作是“大脑”和“画师”的组合:

9B大小的自回归模型,扮演了“大脑”的角色,利用语言模型的底座优势,专注于提升对指令的语义理解和画面的全局构图;

7B大小的DiT扩散解码器,像一个技法高超的“画师”,专注于还原图像的高频细节和文字笔画,改善模型“提笔忘字”的现象。

基于架构上的创新,GLM-Image在通用图像生成质量上能够对齐业界主流隐空间扩散模型方案,在文字渲染与知识密集型图像生成场景中展现出了显著优势,以及出色的多分辨率自适应能力,原生支持从1024x1024到2048×2048尺寸的任意比例图像的生成任务。

参考行业惯例,先来“跑个分”。

在考察模型在图像中同时生成多处文字准确性的CVTG-2K榜单上,GLM-Image凭借0.9116的Word Accuracy(文字准确率)成绩,位列开源模型第一。特别是NED(归一化编辑距离)指标上,GLM-Image以0.9557的得分领先,生成文字与目标文字高度一致,错字、漏字情况更少。

考察模型渲染长文本、多行文字准确性的LongText-Bench,覆盖了招牌、海报、PPT、对话框等8种文字密集场景,并分设中英双语测试,GLM-Image以英文0.952、中文0.979的成绩位列开源模型第一。

比“跑分”更有说服力的是,GLM-Image开源不到24小时就冲上全球知名AI开源社区Hugging Face榜单的全球第一。

只是架构越先进,对算力底座的挑战越大。既要满足LLM对显存和序列长度的极高要求,同时解决图像生成对高并发计算的吞吐需求,对任何算力底座来说,都是一场“地狱级”的压力测试。

02 智谱、昇腾、昇思的协同“破壁”

面对行业“无人区”,智谱和昇腾.昇思是怎么破局的呢?

智谱官方公众号给出了答案:“依托昇腾NPU和昇思MindSpore AI框架,使用动态图多级流水下发、高性能融合算子、多流并行等特性,我们自研了模型训练套件,全面优化数据预处理、预训练、SFT和RL的端到端流程。”

做个“翻译”的话,主要解决了模型训练的三个核心痛点。

第一个是动态图多级流水下发。

在大模型训练的过程中,存在一个经典的“Host-Device”协同问题:Host侧(CPU)负责下发指令,Device侧(NPU)负责计算。但NPU算得太快了,CPU发指令的速度跟不上,导致NPU经常处于“等活干”的空转状态。

昇思MindSpore引入了“动态图多级流水下发”机制,可以理解为将原先串行的“接单-备菜-炒菜”流程,变成了高度重叠的流水线:NPU炒上一道菜的时候,CPU已经在处理下一道菜的订单了。结果是惊人的,Host侧的并行度与下发效率大幅提升,整体训练性能提升了20%。

第二个是多流并行执行。

在多模态训练场景中,文本梯度同步、图像特征广播、混合并行等操作,会产生海量的通信需求。

传统模式下,计算和通信往往是串行的——“路通了再走车”,昇腾的“多流并行执行机制,相当于给计算和通信修了座“立交桥”,通过共用内存池,允许计算和通信同时运行,而且不同通信域还能单独分配“车道”,充分利用网络带宽消除通信串扰,让整体训练性能又提升了10%。

第三个是高性能融合算子。

做过大模型训练的工程师都知道,最大的噩梦就是扩散模型训练后期的Loss震荡。

为了解决这个问题,昇腾CANN高性能算子库提供了多种高性能融合算子,包括AdamW EMA融合算子,缓解扩散模型训练后期loss震荡问题,使收敛效果更稳定;COC通算融合算子,使用集合通信创新算法,用计算掩盖多机多卡场景TP域中ReduceScatter和AllGather等核心通信算子的通信开销,将通信效率提升了15%。

正如我们所看到的,GLM-Image不但验证了在自主创新算力底座上训练高性能多模态生成模型的可行性,更在权威榜单中达到了开源SOTA水平,诠释了自主创新算力底座在模型训练环节的无限可能。

03 中国计算产业破局的“新范式”

GLM-Image的从0到1,预示着AI产业的一次深刻变革。

过去一段时间,外界习惯了“大力出奇迹”:只要堆叠的显卡足够多、带宽足够宽,似乎没有什么模型是跑不起来的。

时间来到2026年,“认知型生成”渐渐成为新的技术范式,模型的架构越来越复杂,既要LLM的逻辑推理能力、生成模型的渲染能力,甚至还要有视频理解的时空建模能力。

面对动态变化的计算需求,“堆算力”已经捉襟见肘,如果不进行底层创新,有效算力将被大量的通信开销和内存墙吞噬。

智谱和昇腾“背靠背”的作战,示范了模型反向定义算力底座的可能:比如为了配合语义Token的理解,专门优化底层的通信流;为了解决混合架构的收敛难题,深度定制融合算子……大模型厂商和算力企业不再是“甲方乙方”的关系,而是联合攻坚作战的“队友”。

除了技术上的“账”,还有商业上的“利”。

“自回归+扩散编码器”的混合架构,兼顾全局指令理解与局部细节刻画,创造性地解决了海报、PPT、科普图等知识密集型场景生成难题。按照常理推断,模型越复杂,计算量越大,成本就越高。但智谱官方公开的数据却是:在API调用模式下,GLM-Image生成一张图片仅需0.1元。

在智能体时代,一个复杂任务(比如设计一张双十一促销海报)可能需要AI在后台进行数十次的自我迭代、草图绘制、反思修改,最终才输出一张成品。倘若生成一张图的成本要几块钱,多步推理的智能体将被局限在实验室,在商业上根本跑不通。

智谱和昇腾.昇思的协同创新,通过计算效率的提升和算力利用率的优化,“抹平”了复杂架构带来的“额外成本”,赋予了GLM-Image极致的性价比,让AI生图从一个需要小心翼翼计费的“工具”,变成了电商、广告、社交媒体等行业的“白菜价”基础设施。

沿循这样的逻辑,接下来的AI竞争,比拼的不只是谁的算力多、模型强,还在于是否拥有“算法-框架-芯片”三位一体的垂直整合能力:在训练端,稳定、高效地进行大模型训练;在推理端,低成本推进产业落地。

像智谱和昇腾一样,拆掉模型和算力之间的墙,进行深度的软硬协同,或将成为计算产业的新范式。

04 写在最后

GLM-Image的一小步,或许是中国AI生态的一大步。

中国最顶尖的算法团队叠加最硬核的算力底座,蹚过了最深的水,踩过了最痛的坑,最终用一份开源SOTA的成绩单告诉行业:用自主创新算力底座训练大模型的路,不仅能走通,还能走得快、走得远。

当然,也要清醒地看到,国产算力生态依然有差距,但GLM-Image撕开了一道口子,光已经照进来了。今天是一个图像模型,明天可能就是万亿参数的多模态“巨兽”。