Test Time Scaling (TTS)

博客园 - stardsd

智能体攻防计算语言学（computational linguistics）状态空间模型（State Space Model, SSM）神经符号集成（Neuro-Symbolic Integration）动态计算分配（Dynamic Compute Allocation）技术：MoD 从LLM到SLM：小型语言模型 Claud Code 源码设计哲学总结 Claud Code源代码主提示词（prompts）中文版 REPL的实现以及Agent的REPL-Plan模式 LLM 大语言模型研究进展与趋势报告 DeepSeek DualPath 论文解读 Web 4.0：Agentic Web CL-bench：上下文学习的评测梅宏院士：符号主义与连接主义的结合应该成为下一代AI的发展方向训推误差（training-inference mismatch）与重要性采样（Importance Sampling，IS）如何设计GRPO系算法的reasoning reward + pair采样策略 GRPO（Group Relative Policy Optimization）算法的演进脉络以及DAPO、VAPO、SRPO、GFPO的区别与联系 VLM评估体系指标对比：CIDEr vs CLIPScore vs GPT-based Eval CIDEr公式：多模态评价指标 TDM（Tree-based Deep Model，树模型） VLM的视觉词汇表扩充（Vary：扩展大型视觉语言模型的视觉词汇量） CLIP视觉词汇表与Q-Former Agent Skill 解析斯科特·佩奇（Scott E. Page）多样性预测定理（Diversity Prediction Theorem） AI合成数据、模型坍缩与数据焦虑问题：合成数据的扩展定律（Scaling Law） - stardsd

stardsd · 2026-02-27 · via 博客园 - stardsd

1️⃣ 什么是 Test Time Scaling？

Test Time Scaling (TTS) 指的是：

在不改变模型参数的前提下，
通过增加推理时的计算量，提高模型输出质量。

它的本质是：

Train-time scaling = 增大模型参数/数据/训练步数
Test-time scaling  = 增大推理阶段的计算预算

换句话说：

训练时你提升“模型容量”，
推理时你提升“思考预算”。

2️⃣ 为什么 Test Time Scaling 有用？

Transformer 本质是：

\( P(y|x) = \prod P(y_t | x, y_{<t}) \)

但在一次 greedy decoding 时：

每一步只采样一次
不会回头修正
不会多路径搜索

这其实是一个 近似推理过程。

如果我们允许：

多次采样
多路径生成
自我反思
重排序
投票

就等于让模型“多想几步”。

这就是 TTS。

3️⃣ 最经典的 TTS 技术

我们用真实模型举例。

① Self-Consistency（多样本投票）

出自 Google 在
Google Research 的论文（Chain-of-Thought 系列）

做法：

对同一个问题采样 N 次
每次生成完整 reasoning path
对最终答案投票

举例

问：

17×23 = ?

模型一次可能算错。

但如果采样 20 次：

15 次得到 391
5 次得到 361

投票后选 391。

效果：

GSM8K 数学准确率显著提升
不改模型参数

代价：

推理成本 × N

② Tree-of-Thought（搜索）

来自
Princeton University
和
Google DeepMind

核心思想：

把推理过程当成搜索树

步骤：

生成多个候选“思考分支”
评估每个分支
保留 top-k
继续展开

本质类似：

Beam Search
MCTS

优点：

复杂推理能力大幅提升

缺点：

成本极高（指数级增长）

③ ReAct + Self-Refine

典型应用在
OpenAI 的 GPT-4 风格系统中。

流程：

生成初始答案
让模型自评
修改
再输出

相当于：

forward → critic → revise → output

这是一种“单模型多步推理”。

④ Best-of-N Sampling

很多闭源模型内部使用：

例如：

生成 16 个答案
用 reward model 评分
选最高分

这叫：

inference-time reranking

在 RLHF 模型中非常常见。

4️⃣ 为什么 TTS 在大模型中特别有效？

关键原因：

1️⃣ 模型内部已经具备多解能力

大模型不是 deterministic solver。

它内部是：

\( P(y|x) \)

分布里包含：

正确 reasoning path
错误 reasoning path

一次采样可能抽错。

多采样 → 更接近真实分布峰值。

2️⃣ 大模型“容量充足”

例如：

OpenAI 的
GPT-4

它的能力并不是受“知识不足”限制，

而是受“单次解码预算”限制。

给它更多 token 预算：

会出现更长的 chain-of-thought
会进行错误修正
会反思

5️⃣ 数学直觉

假设：

单次回答正确率 = 70%
错误独立

那么：

多次投票正确率：

\( P_{vote} = \sum_{k>\frac{N}{2}} \binom{N}{k} p^k (1-p)^{N-k} \)

当 N=5，p=0.7：

正确率 ≈ 83%

当 N=10：

≈ 90%+

这就是 Test-Time Scaling 提升的来源。

6️⃣ 成本对比

假设：

训练 1B token 成本 = X
推理 1 次成本 = y

你可以：

训练更大模型（成本极高）
或者对现有模型多推理几次（成本线性增加）

在实际部署中：

Test Time Scaling 是比继续训练更便宜的能力提升方式。

7️⃣ 工程现实中的 TTS

工业系统中常见：

方法	是否常用	成本
temperature 多采样	✅	低
best-of-n	✅	中
beam search	有限	中
tree search	研究用	高
self-refine	越来越多	中

8️⃣ 一个直观类比

训练 Scaling Law 是：

提高大脑容量

Test Time Scaling 是：

让同一个大脑多想几次

你没有变聪明，

但你更认真了。

9️⃣ 一个关键趋势

🔟 总结一句话

Test Time Scaling 是：

用推理时的额外计算，换取更高输出质量。

本质是：

在 inference 阶段做搜索、投票、反思、重排序。

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

博客园 - stardsd

1️⃣ 什么是 Test Time Scaling？

2️⃣ 为什么 Test Time Scaling 有用？

3️⃣ 最经典的 TTS 技术

① Self-Consistency（多样本投票）

做法：

举例

② Tree-of-Thought（搜索）

③ ReAct + Self-Refine

④ Best-of-N Sampling

4️⃣ 为什么 TTS 在大模型中特别有效？

1️⃣ 模型内部已经具备多解能力

2️⃣ 大模型“容量充足”

5️⃣ 数学直觉

6️⃣ 成本对比

7️⃣ 工程现实中的 TTS

8️⃣ 一个直观类比

9️⃣ 一个关键趋势

🔟 总结一句话