惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

The Register - Security
The Register - Security
美团技术团队
Recent Announcements
Recent Announcements
MongoDB | Blog
MongoDB | Blog
Jina AI
Jina AI
C
Check Point Blog
aimingoo的专栏
aimingoo的专栏
I
InfoQ
S
Securelist
T
Tor Project blog
GbyAI
GbyAI
L
LINUX DO - 热门话题
V
Visual Studio Blog
AWS News Blog
AWS News Blog
The Cloudflare Blog
腾讯CDC
K
Kaspersky official blog
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Recorded Future
Recorded Future
李成银的技术随笔
W
WeLiveSecurity
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
M
Microsoft Research Blog - Microsoft Research
G
Google Developers Blog
酷 壳 – CoolShell
酷 壳 – CoolShell
Schneier on Security
Schneier on Security
B
Blog
IT之家
IT之家
爱范儿
爱范儿
H
Help Net Security
Simon Willison's Weblog
Simon Willison's Weblog
NISL@THU
NISL@THU
J
Java Code Geeks
博客园 - 聂微东
T
The Exploit Database - CXSecurity.com
Cyberwarzone
Cyberwarzone
博客园 - 叶小钗
MyScale Blog
MyScale Blog
Application and Cybersecurity Blog
Application and Cybersecurity Blog
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Project Zero
Project Zero
F
Future of Privacy Forum
D
Darknet – Hacking Tools, Hacker News & Cyber Security
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
Hacker News: Ask HN
Hacker News: Ask HN
D
Docker
Apple Machine Learning Research
Apple Machine Learning Research
B
Blog RSS Feed
V
Vulnerabilities – Threatpost

InfoQ - 促进软件开发领域知识与创新的传播

Navigation API 达基线版本,已经可以作为 History API 的替代方案使用 Cloudflare与Stripe推出新协议,让AI智能体创建账号、购买域名和进行生产部署 词元时代,万物智能 | 摩尔线程2026产品发布会:打造全场景AI算力基石 Altman拿Token换股权只够烧45天,20亿Token捐母校只值100块:Token真成“钱”了,谁更赚? 马斯克要当“太空版黄仁勋”:Anthropic一年上交150亿美元,Cursor百亿分手费锁死,SpaceX成新算力庄家 中国最神秘AI孵化器正式亮相:11位“大佬”导师成为超强外挂 OpenAI开源Symphony:面向自主编码智能体编排的SPEC规范文档 Ubuntu拥抱本地AI,而非云优先的操作系统集成 企业级Agent 落地,绕不开的 4 个工程问题 微软发布Aspire 13.3,迎来部署与前端重磅更新 腾讯混元世界模型的研发布局与思考|AICon上海 阿里发布新一代千问旗舰模型Qwen3.7-Max,登顶最佳国产模型 谷歌推出Cloud Fraud Defense,作为reCAPTCHA的继任者 AI Agent 最大的问题:它在企业里只是个“无名之辈” | 技术趋势 Cloudflare 推出支持确定性执行和 5 万个并发工作流的 Workflows V2 对话灵感实验室:全帧率 VLM、低成本与分层部署,业务现场不止需要炫技模型 10 天 3000 元,一人造出全球 AI 爆款!好莱坞导演抢人、游戏版引爆期待,合作细节首次披露 Anthropic 推出 Routines for Claude Code Snowflake Intelligence 合作伙伴生态:把 AI 能力带入千行百业 |技术趋势 一个隐蔽的循环依赖如何导致了 Discord 3 月份的语音服务中断 Arm 携手通义实验室,发起手机上的创意 AI 挑战赛 基准测试表明:AI智能体可修复独立漏洞,却难以理解系统范围影响 CIO 正在抛弃 AI 生码率:一场关于什么才算产研提效的实践复盘 外行式 Vibe Coding 正跟专业的Agent 工程走向融合:最吓人的是,我们“摆烂”有正当理由了? 不换 Kimi 底座,1/10 成本追平 Opus 4.7?Cursor 用 Composer 2.5 反击 Claude Code Snowflake Intelligence:从回答问题到执行任务的个人工作 Agent | 技术趋势 SolidJS 2.0 Beta:一级异步支持、重构的Suspense与确定性批处理 训推一体潮汐弹性:蚂蚁集团在智算基础设施的池化调度实践|AICon上海 如何在软件组织中扩展社会化的系统 Moonrepo发布moon v2.0:引入WASM插件工具链并重构CLI 蜂群Agent来了!openJiuwen社区发布JiuwenSwarm,引领Coordination Engineering新范式 Pinterest 工程师消除 CPU 僵尸进程,解决生产环境瓶颈 AMD苏妈对话李开复:AI转型只能由CEO驱动、未来“DRI”(直接负责人)将是企业核心|直击现场 8大岗位AI技能图谱 Anthropic发布工程事故报告,说明六周来Claude Code质量下降源于三项产品调整 05·29 腾讯云「数据库+AI」产品发布会重磅启幕 Airbnb 采用基于上下文的身份识别模型,支持隐私优先的社交功能 Anthropic首次揭秘下一代Claude怎么造!用户吐槽直接喂模型,连AI“做梦”都被训练 消息积压方面的数学知识:用于队列恢复的容量规划 Netflix借助Apache Druid中的区间感知缓存让84%的查询结果直接命中缓存 小红书 vibe coding 平台(Muse)之高可用人机共创 Agentic 系统架构实践|AICon上海 时序存储:影响成本与性能的设计选择 Cangjie:一门新的开源编译型语言,原生支持效应处理器和代数数据类型 Snowflake Observe:可观测性与 AI 数据云的融合 | 技术趋势 Golden Question 征集令|把你的 AI 落地之问带去 Snowflake Summit 26 H200还没到中国,Anthropic先急了:千亿美元抢芯片,转头涨价让开发者买单 曝Kimi 后训练团队研究员离职,曾为K2.5贡献者;MiniMax最新招聘,兼职也拿期权;传蜜雪CEO隔空回复黄仁勋,“大佬同款”卖爆|AI周报 从第一性原理出发:那些构建 Snowflake 的理念,以及下一步走向 | 技术趋势 Coder Agents让企业能够在自托管基础设施上运行AI编码工作流 超越基准:采用基于指标的方法在真实设备上维持iOS长期的良好性能 Java新闻汇总:GraalVM、Spring AI、JobRunr、GlassFish、Grails、Groovy和Quarkus Agent MCP 一个二十多年老兵的忧心:那条从Debug开始走向资深工程师的路,正在崩塌 从 Vibe Coding 到需求托管交付 Agent,菜鸟 AI 研发效能实践|AICon上海 从批处理迁移到微批次流式处理的实战经验 AI 的“最后一公里”:本地执行与全场景硬件接入的下一代 Agent 中枢|AICon上海 ChatGPT 可以帮你理财了,但它也知道你的全部余额!用户:谢谢不用了 记忆感知的大模型 KVCache 优化|AICon上海 Kubernetes v1.36 发布:安全默认配置强化,AI 工作负载支持日趋成熟 百度想明白了:旧供给到达极限了 “一人公司”正在重做AI创业?极客部落首场16个OPC项目路演:AI 创业已从“卷模型”转向“卷闭环” 当AI助手进化为自主智能体:英伟达如何携手 SAP 重构企业级“信任逻辑”? JEP 533 加强 JDK 27 中 Java 结构化并发的异常处理 兼顾效率、成本与能力,百灵开源旗舰推理模型 Ring-2.6-1T Grafana Pyroscope 2.0:实现持续性能分析规模化落地 AdonisJS v7 推出端到端类型安全、经过重构的项目模板以及零配置 OpenTelemetry Anthropic 推出 Claude Platform on AWS 鼠标每动一下都在训练AI,Meta员工“造反”了:厕所、会议室都贴满抗议传单 GitHub 推出 MCP 服务器集成,全面扩展机密扫描功能 蚂蚁灵波开源LingBot-VLA真机后训练全流程代码,150条示教数据即可适配新机器人 科大讯飞面向超大规模教育场景的 Agent 系统架构演进与工程实践|AICon上海 复制失败与脏碎片:Linux 页面缓存漏洞影响所有主流发行版 当 Agent 开始接管工作流,企业最在意的三件事:安全运行、稳定交付、持续进化 当 Agent 开始接管工作流,企业最在意的三件事:安全运行、稳定交付、持续进化 龙虾犯错,员工背锅?Agent 需要安全、稳定与持续进化的底座 拒掉字节、谷歌橄榄枝,Meta 离职大佬田渊栋官宣自立门户!苏妈老黄追着投 把 UI 生成接进流水线:基于半监督评测体系的 UI 自动化生产实践 AWS 改进 Aurora Serverless:扩容速度提升 45%,吞吐量提高 30% 从服务器 OS 到 Agent 沙箱:腾讯云如何打通 AI Infra 的生态底座 AWS WorkSpaces 支持 AI 智能体直接操作遗留桌面应用程序 Gemini 进手机,Android 翻身;Gemini进电脑,全网开喷! 本地优先 AI 推理:高性价比文档处理云架构模式 前阿里Qwen负责人林俊旸再创业,新AI Lab估值136亿元 黄仁勋最后一刻登上访华飞机,英伟达中国市场再添变量 Netflix 推出“模型生命周期图”,扩展企业级机器学习 AI Agent 沙箱的网络安全:从流量隔离到智能治理|AICon上海 谷歌 DORA 团队发布新报告:扎实的工程基础决定了 AI 投资回报 从「自我进化」到「DAA」,百度给出 Agent 时代系统答案 MySQL 9.7 发布:8.4 之后首个 LTS 正式版,企业级功能下放社区版 当 AI Agent 走进生产数据库,DBA 的角色正在被重新定义 GitHub 如何保障现代CI/CD系统中智能体工作流的安全 Manus 交易失败后,创始人仍在谈论 Agent 时代的成功经验 MediaTek 发布 AI 与游戏开发新工具,聚焦端侧智能体与移动图形能力 把 RAG 做成主流的公司,现在开始“做空”RAG 了 6 天、96 万行 Rust、直接合并?Claude Code 被 Bun 的内存泄漏拖垮后,Bun 让 Claude 亲手重写了自己 摩尔线程 MUSA 合入SGLang主线,国产GPU开源生态从“代码共建”迈入“原生支持时代” 智能体成新型攻击入口?模型上线前OpenAI内部到底审什么?董事会成员首次详解 Cloudflare 推出 Artifacts Beta 测试版,为 AI 代理引入类似 Git 的版本控制功能 在软件设计中应用当下最佳简易系统 Cortex 智能代理:赋能 Snowflake Intelligence 打造企业级 AI 代理核心平台 |技术趋势 局中局!给 Agent 装上 OpenViking,它们竟然学会了“记仇”和“伪装”?
从兼容 CUDA 到自我进化,摩尔线程想用 MUSA 解决真正的难题
凌敏 · 2026-05-21 · via InfoQ - 促进软件开发领域知识与创新的传播

没有发布芯片,但这场发布会还是“出圈”了。

5 月 18 日,摩尔线程在北京举办主题为“词元时代,万物智能”的年度产品发布会,现场座无虚席。摩尔线程用接近 2 个小时的时间,一口气完成六大重磅发布:

从万卡级规模的夸娥智算集群,到自研“长江”SoC 驱动的智能终端 MTT AICUBE 和 MTT AIBOOK;从数字世界智能体“小麦”,到加速物理 AI 落地的首个全栈具身智能仿真平台 MT Lambda,再到持续进化的 MUSA 生态

摩尔线程全面展示了一个覆盖“云 - 边 - 端”的全栈智算矩阵,每个都值得深入讨论。但在笔者看来,这场发布会带来的最大惊喜,是压轴发布的 MUSA 生态进化。

过去几年,国产 GPU 已经验证了硬件能力。通过架构迭代、工程优化,国产 GPU 是能够在硬件上交出高分答卷的。但企业采购 GPU 从来不是只买一张卡,而是在押注其背后的软件生态和开发体系。摩尔线程用一场发布会向开发者证明,MUSA 不只是国产 GPU 的生态底座,更是一个开放、自进化、与开发者共同成长的智能生态。

国产 GPU,加速融入全球开源生态

在过去很长一段时间里,国产 GPU 软件生态与全球主流开源生态之间,始终存在一道微妙的裂痕。国产 GPU 能支持不少主流框架运行,却少有人能进入真正的牌桌,融入全球开源生态。

这意味着,即便开发者能在国产 GPU 上完成训练或推理任务,但需要做的额外工作一点也不少。最显著的代价是,维护成本高昂。同样的模型跑在国产 GPU 上,如果缺乏原生支持,开发者需要针对不同训练或推理框架单独维护适配层,不少核心算子也无法直接调用,需要开发者手动替换实现方案,甚至重新编写部分 kernel。如果上游框架迭代,开发者还需要投入额外的精力维护 patch、跟进版本更新和兼容测试。

开发者用大量的时间和精力,填补生态上的空白。这也是为什么,MUSA 近期在开源生态层面的进展,值得拿来放到发布会上压轴讨论。

在当前最主流的两个大模型推理框架 SGLang 和 vLLM 上,MUSA 都带来了好消息:

  • SGLang 方面,MUSA 后端正式加入 SGLang 的官方支持体系,相关代码也已成功合入 SGLang 主线。截至 5 月 12 日,摩尔线程已向 SGLang 提交 47 个 PR,其中 41 个完成合并,并成功进入 SGLang 2026 年 Q2 官方硬件支持矩阵,与 GB200/GB300、AMD、TPU 等主流算力平台并列。

  • vLLM 方面,MUSA 成为 vLLM 的官方后端,并开源 vLLM-MUSA,开发者可原生获得摩尔线程 GPU 加速能力。

与单纯地多支持了一个框架相比,加入大模型推理框架官方后端矩阵意味着,国产 GPU 在生态适配上拥有更充分、更直接的兼容路径。以 SGLang 为例,无论开发者使用的是 SGLang 框架本体 sglang、高性能算子库 sgl-kernel,还是多模态生成组件 multimodal_gen,都能在原生框架环境中直接调用摩尔线程 GPU,开发者不需要维护额外分支或适配层,就能在熟悉的工作流中完成推理部署和性能优化。

除了推理框架,摩尔线程在底层编译生态上也有关键进展。

据介绍,摩尔线程正与智源研究院合作推进 Triton 生态,Triton-MUSA 已升级支持至 Triton 3.6 最新版本。基于 Triton 的 FlagOS 正在成为连接不同 AI 芯片的软件中间层,其重要性不言而喻。此前,在一场由摩尔线程举办的技术 Meetup 上,智源研究院展示了打通多种 AI 芯片的统一开源软件栈 FlagOS,其 FlagGEMs 算子库已涵盖超 497 个算子,并依托 FlagTree 编译器与 Triton-TLE 语言扩展,实现了跨芯片的高性能算子生成。

这一能力已经在实际场景中得到验证。以 DeepSeek-V4 的 Day0 适配为例,基于摩尔线程专用张量加速引擎与 FlagOSTune 调优方案,模型首 Token 返回时延(TTFT)降低 56.7%,吞吐量提升 65.7%。

从这个角度看,Triton-MUSA 升级更大的意义在于,开发者可以基于 Triton 这一主流高性能算子开发工具,在 MUSA 上进行更高效的算子开发与优化,进一步降低底层开发门槛。

在全球开源社区中,TileLang-MUSA 已成功合入开源主线。作为近一年快速崛起的热门开源社区,TileLang 开源不足一年便斩获超 6000 Stars,其目标是解决 Triton 等现有方案在极致性能控制上的不足,让开发者用更少的代码实现专家级的算子性能。

目前,TileLang 正与 MUSA 生态深度联调,共同构建适配摩尔线程全功能 GPU 的高性能算子库。在 GEMM 类算子上,已经实现了 95% 以上的汇编级性能效率,Attention 类算子也达到了 90% 以上的效率。

从 SGLang 到 vLLM,再到 Triton、TileLang,MUSA 正在加速进入主流开源生态,串联起从上层应用到底层优化的完整路径。降低开发者维护成本的同时,也让国产 GPU 更有可能被大规模采用。这或许才是国产 GPU 生态走向成熟的重要分野。

100% 兼容,MUSA 把迁移成本打下来了

降低维护成本决定了开发者能否长期留下来,但在这之前,决定开发者是否愿意用起来的,是迁移成本。

正如前文所说,企业采购 GPU 从来不是只买一张卡,而是在押注其背后的软件生态和开发体系。代码能否复用、框架能否兼容、工作流是否需要重构,往往比单纯的算力参数更影响最终决策。

此次发布会上新的 MUSA SDK 5.1.0,直指的正是迁移痛点——它完全对标 CUDA 12.8,后者为 Blackwell 架构提供了完整、全工具链的支持,也是当前业界广泛使用的主力版本。

图片

升级后,基于 CUDA 12.8 开发的 AI 模型、科学计算应用,都能以极高的效率运行在摩尔线程 GPU 上。MUSA 软件栈全链路覆盖了底层驱动、编译器、算子加速库、训练与推理框架,并且迁移流程得到了大幅简化:

图片

兼容只是第一步,决定开发者体验的,还有性能。针对 FlashAttention3、Sage Attention、DSA、GDN、DeepGEMM 等当前业界最常用的计算算子,摩尔线程推出了 MATE(MUSA AI Tensor Engine)加速库,并围绕核心算子进行了专项性能增强。

其中,FlashAttention3 在摩尔线程 GPU 上的计算效率高达 95%,整体热点算子覆盖率突破 90%。在 Attention 类算子上,MATE 已实现全场景、全覆盖支持,为大规模语言模型提供了核心性能保障。

这些数据代表的是,迁移不再以牺牲性能为代价,开发者将现有 CUDA 应用迁移至 MUSA 后,在热点计算环节的实际运行速度与原有平台几乎无差别。

为了提升开发者应用体验,摩尔线程还提供了“产品化”的训练与推理套件。比如在训练侧,基于 MTT S5000 全功能 GPU 的超大规模集群训练能力已实现全面产品化,同时,强化了对强化学习的支持,兼容业界主流的 VeRL 与 Slime 框架,并完成了对多项微调框架的适配。无论是千卡集群训练,还是模型微调,MUSA 都能提供稳定高效的开发体验。

从兼容 CUDA,到强化热点算子性能,再到训练与推理能力产品化,这些“上新”直指的,是国产 GPU 在过去很长一段时间里,最深层的痛点——迁移门槛太高了。

过去,开发者迁移至国产 GPU,既要考虑底层兼容性问题,比如接口差异、调用习惯,又要考虑性能,比如算子执行效率是否打折。此外,训练和推理环境本身也存在迁移成本。一次迁移,往往需要重新验证训练流程、部署推理框架、适配集群环境和工具链。

本次 MUSA 的更新,本质上就是在逐层拆解这些迁移障碍。这些变化对于开发者真正的意义,不只是把迁移门槛打下来。更重要的是,它尽可能保留了开发者既有的开发习惯和工作流,让整个迁移几乎零成本。

从兼容 CUDA 到构建自进化生态,为什么是摩尔线程?

从进入主流开源生态到 100% 兼容,不难看出,上市后的摩尔线程,技术路线更加清晰了,也再次印证了摩尔线程创始人、董事长兼 CEO 张建中此前的判断:生态体系才是 GPU 行业的核心护城河与价值所在

过去十多年,英伟达围绕 CUDA 构建起来的 API、编译器、算子库、框架适配和开发者社区,铸就了其坚实壁垒。MUSA 的路径,某种程度上也是在验证这一逻辑。但不同的是,摩尔线程试图用更高效率的方式补齐生态短板——引入 AI 技术加速生态的自我演进

为了降低 MUSA 编程门槛,本次发布会上,摩尔线程带来了面向开发者打造的新一代 AI 编程工具 MUSACODE

图片

MUSACODE 支持自然语言生成代码,能实现 30 天自动生成、测试 PP 库 12015 个算子,并基于 TileLang 自动调优 Group GEMM 算子实现 60% 性能提升。此外,MUSACODE 还支持 Python、C++、Rust、Go 等多种主流语言,并提供 MUSA VSCode Edition 官方插件,支持代码完全在本地端侧运行,保护企业的隐私与数据安全。

在编程辅助之外,摩尔线程还进一步引入了 AI Agent 自动化迁移体系,从工具层、基础层到使用层,全方位降低开发者接入门槛。

图片

在工具层,Automusify Skill 能够实现零干预、自动化地将现有工程迁移至 MUSA 平台,无需手动修改代码,极大提升迁移效率;在基础层,实现了对 Top 100 人工智能与 Top 100 科学计算两大领域加速仓库的 100% 自动迁移;在使用层,MUSA 提供了加速库在线源,开发者可通过在线源直接获取编译后的仓库及开源代码,真正做到即拿即用、开箱即跑。

从自动迁移工具,到兼容核心 API,再到在线加速库和 AI 编程助手,摩尔线程正试图用一条完整的自动化链路,将生态建设从人力追赶推进到自进化。

在一众国产 GPU 厂商中,为什么是摩尔线程率先把生态建设推到这一阶段?

背后的答案,或许就藏在其长期坚持的技术路线中。

不同于单一场景导向的 GPU 产品思路,摩尔线程一直走的是 基于统一系统架构的全功能 GPU 路线,同一颗芯片同时支持 AI 计算、图形渲染、物理仿真和超高清视频编解码,具备极高的全场景全栈计算通用性。

也正因此,MUSA 从诞生之初就被放在了核心战略位置。

回看近几年摩尔线程围绕 MUSA 的持续投入,无论是硬件架构迭代、软件栈补齐,还是如今加速融入主流开源生态、引入 AI 驱动生态自进化,可以看出,摩尔线程对于 GPU 竞争终局的判断一直围绕着一个主线:开发者

硬件层面,MUSA 架构从 2021 年的“苏堤”起步,历经“春晓”、“曲院”、“平湖”,再到去年年末预告的“花港”,持续围绕全功能 GPU 能力演进。相比聚焦单一 AI 场景的产品路线,统一系统架构能让开发者基于更统一的算力底座进行开发和部署,这本身就是开发效率的重要保障。

软件层面,从早期补齐驱动、运行时和编译器等基础能力,到逐步完善数学库、算子加速库、训练与推理框架支持,再到持续提升 CUDA 兼容能力并接入 SGLang、vLLM、Triton、TileLang 等主流开源生态,MUSA 正通过降低迁移成本让开发者用起来、降低维护成本让开发者留下来。

相比单纯比拼硬件参数,摩尔线程显然更早意识到,GPU 行业的竞争终局,从来不只是芯片本身,而是谁能赢得更多开发者。只有当开发者愿意用起来、留下来,一家 GPU 厂商才真正拥有长期竞争力。