惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

F
Fox-IT International blog
Recent Announcements
Recent Announcements
D
Docker
IT之家
IT之家
B
Blog
Jina AI
Jina AI
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
博客园 - 【当耐特】
Google DeepMind News
Google DeepMind News
F
Fortinet All Blogs
量子位
C
Check Point Blog
Microsoft Azure Blog
Microsoft Azure Blog
罗磊的独立博客
博客园 - 司徒正美
李成银的技术随笔
美团技术团队
Blog — PlanetScale
Blog — PlanetScale
雷峰网
雷峰网
The GitHub Blog
The GitHub Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
J
Java Code Geeks
T
The Blog of Author Tim Ferriss
酷 壳 – CoolShell
酷 壳 – CoolShell
MongoDB | Blog
MongoDB | Blog
P
Proofpoint News Feed
L
LangChain Blog
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Y
Y Combinator Blog
大猫的无限游戏
大猫的无限游戏
有赞技术团队
有赞技术团队
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
V
Visual Studio Blog
T
Tailwind CSS Blog
H
Help Net Security
Engineering at Meta
Engineering at Meta
小众软件
小众软件
B
Blog RSS Feed
Stack Overflow Blog
Stack Overflow Blog
月光博客
月光博客
M
Microsoft Research Blog - Microsoft Research
宝玉的分享
宝玉的分享
人人都是产品经理
人人都是产品经理
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
GbyAI
GbyAI
H
Hackread – Cybersecurity News, Data Breaches, AI and More
Last Week in AI
Last Week in AI
Martin Fowler
Martin Fowler
Stack Overflow Blog
Stack Overflow Blog

InfoQ - 促进软件开发领域知识与创新的传播

蚂蚁重磅领投,光轮智能完成新一轮融资!物理AI的价值中心,已经变了 Node.js 拟内置虚拟文件系统,AI 生成代码引争议 Snowflake AI 指南:如何在提升开发效率的同时降低 Token 成本 | 技术实践 如何在 Snowflake 上构建可编程 AI Agent?Cortex Code Agent SDK 深度解析 | 技术实践 ClickHouse十大最佳实践技巧 AWS MCP服务器正式可用,全面适配API并支持IAM权限控制 从模型诞生到上线:Ray 在小红书 AI 数据生产中的算力调度实践|AICon上海 Cloudflare 通过对 Browser Run 的重构和六层平台完善了其代理基础设施技术栈 微软将弃用Claude:太贵了还是薅明白了? 平台工程如何利用“黄金砖块”实现快速、顺畅的交付 Bintrail:利用索引二进制日志实现 MySQL 时间旅行查询 Oracle XStream 技术揭秘:高吞吐 OLTP 场景下的 CDC 影响评估 | 技术实践 ClickHouse实战:Agentic Coding,是“神”还是“坑”? 借助 Android CLI,谷歌正让 Android 工具链更便于代理使用 从 AI 试点到 AI 运营:零售与制造业领导者如何让 Agentic AI 真正落地 | 技术趋势 45家机器人厂商背后都是它!天机智能完成10亿元融资,估值奔百亿了 OpenTofu 1.12发布,带来 Terraform 从未提供的功能 Copilot 创始工程师:大多数 AI 编码“就像开着法拉利去买牛奶一样” 人工智能无法加速软件交付 C++之父开撕AI Coding:资深开发者宁愿退休也不愿伺候AI生成的代码 Java近期资讯:OpenJDK JEP、Azul Payara、WildFly、LangChain4j、OpenXava和Google ADK 模型之外,皆属Harness!DeepSeek终于出手:招人、组队、从零造一个中国版Claude Code AI时代数据面临的新挑战和解决之道|AICon上海 数字银行Monzo在100个团队与12000个dbt模型之上构建可治理的数据网格 破局多端困境,拥抱 AI 变革:飞猪跨端技术的过去、现在与未来|AICon上海 大规模工程支撑场景下的多智能体系统设计:Grab 实践案例 OpenAI 详解规模化低延迟语音 AI 的 WebRTC 架构 华为鸿蒙突击队编程框架首席技术专家谢国确认出席AICon上海站,并以鸿蒙为例分享AI 时代的跨平台框架演进 买了卡不等于买到生产力:企业 Token 焦虑,逼出 AI Infra 新战场 Anthropic 推出 MCP 隧道,供私有代理访问内部系统 Agoda 构建多模态内容系统,链接图片和评论 别再骂 Claude 限速了,Anthropic Boris 亲口承认:最挑剔的用户,反而最离不开我们 为创造,再一次信仰之跃 |AdventureX 2026 开启招募 GitHub面临生存之战!多位员工曝内部乱象:独立文化要没了,封杀Claude Code才能“活” AI Coding 很强,为什么企业没提速? Gemini 3.5深夜登场,谷歌CEO劈柴亲自算账:速度快4倍、一年还省超10亿美元,曝内部已被颠覆 中经社发布“十五五”新产业研究智能体,可自主生成产业链分析报告 虚拟上下文窗口技术实现10倍扩容,联想天禧AI 4.0破解大模型长程推理难题 千问云发布,阿里云将模型路由、认证、用量查询全面 CLI、SKill化 TanStack 披露一起复杂的 npm 供应链攻击事件, 42 个包遭入侵 Vite 8.0 :基于 Rust 的统一打包工具,构建速度最高提升 30 倍 Fonttrio 发布:面向 shadcn/ui 的开源字体搭配注册表 Pip 26.1正式发布:上线依赖冷却机制与实验性锁定文件功能,抵御供应链攻击 阶跃星辰副总裁俞刚确认出席AICon上海站,分享多模态生成与理解的架构演进 Cloudflare 发布 Dynamic Workflows,将持久化执行扩展到按租户与按 Agent 动态运行的代码 每个企业都需要自己的 Token Factory?超聚变提出“智企”新范式 Navigation API 达基线版本,已经可以作为 History API 的替代方案使用 Cloudflare与Stripe推出新协议,让AI智能体创建账号、购买域名和进行生产部署 词元时代,万物智能 | 摩尔线程2026产品发布会:打造全场景AI算力基石 Altman拿Token换股权只够烧45天,20亿Token捐母校只值100块:Token真成“钱”了,谁更赚? 马斯克要当“太空版黄仁勋”:Anthropic一年上交150亿美元,Cursor百亿分手费锁死,SpaceX成新算力庄家 中国最神秘AI孵化器正式亮相:11位“大佬”导师成为超强外挂 从兼容 CUDA 到自我进化,摩尔线程想用 MUSA 解决真正的难题 OpenAI开源Symphony:面向自主编码智能体编排的SPEC规范文档 Ubuntu拥抱本地AI,而非云优先的操作系统集成 企业级Agent 落地,绕不开的 4 个工程问题 微软发布Aspire 13.3,迎来部署与前端重磅更新 腾讯混元世界模型的研发布局与思考|AICon上海 阿里发布新一代千问旗舰模型Qwen3.7-Max,登顶最佳国产模型 谷歌推出Cloud Fraud Defense,作为reCAPTCHA的继任者 AI Agent 最大的问题:它在企业里只是个“无名之辈” | 技术趋势 Cloudflare 推出支持确定性执行和 5 万个并发工作流的 Workflows V2 对话灵感实验室:全帧率 VLM、低成本与分层部署,业务现场不止需要炫技模型 10 天 3000 元,一人造出全球 AI 爆款!好莱坞导演抢人、游戏版引爆期待,合作细节首次披露 Anthropic 推出 Routines for Claude Code Snowflake Intelligence 合作伙伴生态:把 AI 能力带入千行百业 |技术趋势 一个隐蔽的循环依赖如何导致了 Discord 3 月份的语音服务中断 Arm 携手通义实验室,发起手机上的创意 AI 挑战赛 基准测试表明:AI智能体可修复独立漏洞,却难以理解系统范围影响 CIO 正在抛弃 AI 生码率:一场关于什么才算产研提效的实践复盘 外行式 Vibe Coding 正跟专业的Agent 工程走向融合:最吓人的是,我们“摆烂”有正当理由了? 不换 Kimi 底座,1/10 成本追平 Opus 4.7?Cursor 用 Composer 2.5 反击 Claude Code Snowflake Intelligence:从回答问题到执行任务的个人工作 Agent | 技术趋势 SolidJS 2.0 Beta:一级异步支持、重构的Suspense与确定性批处理 训推一体潮汐弹性:蚂蚁集团在智算基础设施的池化调度实践|AICon上海 如何在软件组织中扩展社会化的系统 Moonrepo发布moon v2.0:引入WASM插件工具链并重构CLI 蜂群Agent来了!openJiuwen社区发布JiuwenSwarm,引领Coordination Engineering新范式 Pinterest 工程师消除 CPU 僵尸进程,解决生产环境瓶颈 AMD苏妈对话李开复:AI转型只能由CEO驱动、未来“DRI”(直接负责人)将是企业核心|直击现场 8大岗位AI技能图谱 Anthropic发布工程事故报告,说明六周来Claude Code质量下降源于三项产品调整 05·29 腾讯云「数据库+AI」产品发布会重磅启幕 Airbnb 采用基于上下文的身份识别模型,支持隐私优先的社交功能 Anthropic首次揭秘下一代Claude怎么造!用户吐槽直接喂模型,连AI“做梦”都被训练 消息积压方面的数学知识:用于队列恢复的容量规划 Netflix借助Apache Druid中的区间感知缓存让84%的查询结果直接命中缓存 小红书 vibe coding 平台(Muse)之高可用人机共创 Agentic 系统架构实践|AICon上海 时序存储:影响成本与性能的设计选择 Cangjie:一门新的开源编译型语言,原生支持效应处理器和代数数据类型 Snowflake Observe:可观测性与 AI 数据云的融合 | 技术趋势 Golden Question 征集令|把你的 AI 落地之问带去 Snowflake Summit 26 H200还没到中国,Anthropic先急了:千亿美元抢芯片,转头涨价让开发者买单 曝Kimi 后训练团队研究员离职,曾为K2.5贡献者;MiniMax最新招聘,兼职也拿期权;传蜜雪CEO隔空回复黄仁勋,“大佬同款”卖爆|AI周报 从第一性原理出发:那些构建 Snowflake 的理念,以及下一步走向 | 技术趋势 Coder Agents让企业能够在自托管基础设施上运行AI编码工作流 超越基准:采用基于指标的方法在真实设备上维持iOS长期的良好性能 Java新闻汇总:GraalVM、Spring AI、JobRunr、GlassFish、Grails、Groovy和Quarkus Agent MCP 一个二十多年老兵的忧心:那条从Debug开始走向资深工程师的路,正在崩塌 从 Vibe Coding 到需求托管交付 Agent,菜鸟 AI 研发效能实践|AICon上海
Gemma 4 多词元预测:生成速度最高提升约 3 倍
作者:Sergio De · 2026-05-27 · via InfoQ - 促进软件开发领域知识与创新的传播

Gemma 4 可与多词元预测(MTP)草稿模型配合使用,草稿模型使用投机解码技术并行生成多个词元,让模型能够在单次前向传播中完成校验,从而实现高达约 3 倍的推理加速,且不损失生成质量。

多词元预测草稿模型是一种轻量级辅助模型,与 Gemma 4 协同工作,用于解决大语言模型的内存带宽瓶颈问题。正如谷歌工程师所解释的,在推理过程中,处理器大部分时间都在重复地将数十亿参数从显存(VRAM)搬运到计算单元——每生成一个词元就要搬运一次。这种持续的数据搬运增加了延迟,并导致计算资源闲置,在消费级硬件上尤为明显。

这种低效问题会进一步被放大,因为大语言模型预测“浅显内容”与解答“复杂逻辑谜题”所耗费的计算量是相同的——这正是多词元预测草稿模型能够发挥作用的关键场景。

通过将大型主模型(如 Gemma 4 31B)与轻量级草稿模型搭配使用,我们可以更好地利用闲置的计算资源,让草稿模型在比主模型处理单个词元更短的时间内“预测”多个后续词元。随后,主模型对这些候选词元进行并行验证。

谷歌表示,借助多词元预测草稿模型能够显著提升响应速度,让各类设备实现更快推理:个人电脑与消费级 GPU 可运行 Gemma 26B MoE 和 31B Dense 模型,移动设备则可使用 E2B、E4B 版本,且不会损失输出质量。

由于核心的 Gemma 4 模型掌握最终验证权,你依旧可以获得同等顶尖的推理能力与准确率,同时响应速度得到大幅提升。

谷歌进行了多项架构优化与硬件专属适配,确保 MTP 草稿模型实现最高的运行效率,并在 x.com 发布推文,通过可视化内容详细介绍了草稿模型的工作原理。

Reddit 用户 FarrisAT 称 Gemma 4 MTP 是“一项相当出色的技术”,同时他也提醒,目前本地部署的模型仍存在不少问题,其真正优势要等到模型性能跻身行业顶尖水准后才能充分体现出来。

另一位用户 Gohab2001 表示,MTP 并非一种全新的技术,但在本地部署时有一个明显短板:需要同时在内存中加载两个模型。同时他也强调,Gemma 4 MTP 的真正改进在于它们共享目标模型的 KV 缓存,这确实有效降低了这项技术产生的额外开销。

在 Hacker News 上,用户 zozbot234 表示:“MTP 主要适用于用户体量小、计算资源充足的场景,比如移动端与边缘计算场景,对于大型 API 服务厂商来说,这项技术带来的提升则比较有限。”

启用了 MTP 的 Gemma 4 版本已在多个平台上线,包括 Hugging Face、Kaggle、Ollama 等。

查看英文原文:https://www.infoq.com/news/2026/05/gemma4-multi-token-prediction/