

























Test Time Scaling (TTS) 指的是:
在不改变模型参数的前提下,
通过增加推理时的计算量,提高模型输出质量。
它的本质是:
Train-time scaling = 增大模型参数/数据/训练步数
Test-time scaling = 增大推理阶段的计算预算
换句话说:
训练时你提升“模型容量”,
推理时你提升“思考预算”。
Transformer 本质是:
\( P(y|x) = \prod P(y_t | x, y_{<t}) \)
但在一次 greedy decoding 时:
这其实是一个 近似推理过程。
如果我们允许:
就等于让模型“多想几步”。
这就是 TTS。
我们用真实模型举例。
出自 Google 在
Google Research 的论文(Chain-of-Thought 系列)
问:
17×23 = ?
模型一次可能算错。
但如果采样 20 次:
投票后选 391。
效果:
代价:
来自
Princeton University
和
Google DeepMind
核心思想:
把推理过程当成搜索树
步骤:
本质类似:
优点:
缺点:
典型应用在
OpenAI 的 GPT-4 风格系统中。
流程:
相当于:
forward → critic → revise → output
这是一种“单模型多步推理”。
很多闭源模型内部使用:
例如:
这叫:
inference-time reranking
在 RLHF 模型中非常常见。
关键原因:
大模型不是 deterministic solver。
它内部是:
\( P(y|x) \)
分布里包含:
一次采样可能抽错。
多采样 → 更接近真实分布峰值。
例如:
OpenAI 的
GPT-4
它的能力并不是受“知识不足”限制,
而是受“单次解码预算”限制。
给它更多 token 预算:
假设:
那么:
多次投票正确率:
\( P_{vote} = \sum_{k>\frac{N}{2}} \binom{N}{k} p^k (1-p)^{N-k} \)
当 N=5,p=0.7:
正确率 ≈ 83%
当 N=10:
≈ 90%+
这就是 Test-Time Scaling 提升的来源。
假设:
你可以:
在实际部署中:
Test Time Scaling 是比继续训练更便宜的能力提升方式。
工业系统中常见:
| 方法 | 是否常用 | 成本 |
|---|---|---|
| temperature 多采样 | ✅ | 低 |
| best-of-n | ✅ | 中 |
| beam search | 有限 | 中 |
| tree search | 研究用 | 高 |
| self-refine | 越来越多 | 中 |
训练 Scaling Law 是:
提高大脑容量
Test Time Scaling 是:
让同一个大脑多想几次
你没有变聪明,
但你更认真了。
最新研究表明:
在强模型上,Test-Time Scaling 的收益有时超过参数 Scaling。
这也是为什么很多模型:
Test Time Scaling 是:
用推理时的额外计算,换取更高输出质量。
本质是:
在 inference 阶段做搜索、投票、反思、重排序。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。