


























Gemma 4 可与多词元预测(MTP)草稿模型配合使用,草稿模型使用投机解码技术并行生成多个词元,让模型能够在单次前向传播中完成校验,从而实现高达约 3 倍的推理加速,且不损失生成质量。
多词元预测草稿模型是一种轻量级辅助模型,与 Gemma 4 协同工作,用于解决大语言模型的内存带宽瓶颈问题。正如谷歌工程师所解释的,在推理过程中,处理器大部分时间都在重复地将数十亿参数从显存(VRAM)搬运到计算单元——每生成一个词元就要搬运一次。这种持续的数据搬运增加了延迟,并导致计算资源闲置,在消费级硬件上尤为明显。
这种低效问题会进一步被放大,因为大语言模型预测“浅显内容”与解答“复杂逻辑谜题”所耗费的计算量是相同的——这正是多词元预测草稿模型能够发挥作用的关键场景。
通过将大型主模型(如 Gemma 4 31B)与轻量级草稿模型搭配使用,我们可以更好地利用闲置的计算资源,让草稿模型在比主模型处理单个词元更短的时间内“预测”多个后续词元。随后,主模型对这些候选词元进行并行验证。
谷歌表示,借助多词元预测草稿模型能够显著提升响应速度,让各类设备实现更快推理:个人电脑与消费级 GPU 可运行 Gemma 26B MoE 和 31B Dense 模型,移动设备则可使用 E2B、E4B 版本,且不会损失输出质量。
由于核心的 Gemma 4 模型掌握最终验证权,你依旧可以获得同等顶尖的推理能力与准确率,同时响应速度得到大幅提升。
谷歌进行了多项架构优化与硬件专属适配,确保 MTP 草稿模型实现最高的运行效率,并在 x.com 发布推文,通过可视化内容详细介绍了草稿模型的工作原理。
Reddit 用户 FarrisAT 称 Gemma 4 MTP 是“一项相当出色的技术”,同时他也提醒,目前本地部署的模型仍存在不少问题,其真正优势要等到模型性能跻身行业顶尖水准后才能充分体现出来。
另一位用户 Gohab2001 表示,MTP 并非一种全新的技术,但在本地部署时有一个明显短板:需要同时在内存中加载两个模型。同时他也强调,Gemma 4 MTP 的真正改进在于它们共享目标模型的 KV 缓存,这确实有效降低了这项技术产生的额外开销。
在 Hacker News 上,用户 zozbot234 表示:“MTP 主要适用于用户体量小、计算资源充足的场景,比如移动端与边缘计算场景,对于大型 API 服务厂商来说,这项技术带来的提升则比较有限。”
启用了 MTP 的 Gemma 4 版本已在多个平台上线,包括 Hugging Face、Kaggle、Ollama 等。
查看英文原文:https://www.infoq.com/news/2026/05/gemma4-multi-token-prediction/
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。