惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Google Online Security Blog
Google Online Security Blog
博客园_首页
酷 壳 – CoolShell
酷 壳 – CoolShell
Jina AI
Jina AI
博客园 - Franky
大猫的无限游戏
大猫的无限游戏
Hugging Face - Blog
Hugging Face - Blog
博客园 - 司徒正美
V
V2EX
雷峰网
雷峰网
云风的 BLOG
云风的 BLOG
V
Visual Studio Blog
F
Full Disclosure
Y
Y Combinator Blog
V
V2EX - 技术
Attack and Defense Labs
Attack and Defense Labs
S
Security @ Cisco Blogs
Schneier on Security
Schneier on Security
Microsoft Azure Blog
Microsoft Azure Blog
SecWiki News
SecWiki News
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
The GitHub Blog
The GitHub Blog
量子位
PCI Perspectives
PCI Perspectives
S
Secure Thoughts
D
Darknet – Hacking Tools, Hacker News & Cyber Security
AWS News Blog
AWS News Blog
Blog — PlanetScale
Blog — PlanetScale
爱范儿
爱范儿
K
Kaspersky official blog
B
Blog
A
Arctic Wolf
Hacker News: Ask HN
Hacker News: Ask HN
L
LangChain Blog
T
Tor Project blog
P
Privacy & Cybersecurity Law Blog
Recent Announcements
Recent Announcements
宝玉的分享
宝玉的分享
The Register - Security
The Register - Security
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
L
Lohrmann on Cybersecurity
D
Docker
A
About on SuperTechFans
H
Hackread – Cybersecurity News, Data Breaches, AI and More
Google DeepMind News
Google DeepMind News
The Last Watchdog
The Last Watchdog
S
Security Affairs
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
P
Privacy International News Feed
Simon Willison's Weblog
Simon Willison's Weblog

博客园 - stardsd

智能体攻防 计算语言学(computational linguistics) 状态空间模型(State Space Model, SSM) 神经符号集成(Neuro-Symbolic Integration) 动态计算分配(Dynamic Compute Allocation)技术:MoD 从LLM到SLM:小型语言模型 Claud Code 源码设计哲学总结 Claud Code源代码主提示词(prompts)中文版 REPL的实现以及Agent的REPL-Plan模式 LLM 大语言模型研究进展与趋势报告 DeepSeek DualPath 论文解读 Web 4.0:Agentic Web CL-bench:上下文学习的评测 梅宏院士:符号主义与连接主义的结合应该成为下一代AI的发展方向 训推误差(training-inference mismatch)与重要性采样(Importance Sampling,IS) 如何设计GRPO系算法的reasoning reward + pair采样策略 GRPO(Group Relative Policy Optimization) 算法的演进脉络以及DAPO、VAPO、SRPO、GFPO的区别与联系 VLM评估体系指标对比:CIDEr vs CLIPScore vs GPT-based Eval CIDEr公式:多模态评价指标 TDM(Tree-based Deep Model,树模型) VLM的视觉词汇表扩充(Vary:扩展大型视觉语言模型的视觉词汇量) CLIP视觉词汇表与Q-Former Agent Skill 解析 斯科特·佩奇(Scott E. Page)多样性预测定理(Diversity Prediction Theorem) AI合成数据、模型坍缩与数据焦虑问题:合成数据的扩展定律(Scaling Law) - stardsd
Test Time Scaling (TTS)
stardsd · 2026-02-27 · via 博客园 - stardsd

image


1️⃣ 什么是 Test Time Scaling?

Test Time Scaling (TTS) 指的是:

在不改变模型参数的前提下,
通过增加推理时的计算量,提高模型输出质量。

它的本质是:

Train-time scaling = 增大模型参数/数据/训练步数
Test-time scaling  = 增大推理阶段的计算预算

换句话说:

训练时你提升“模型容量”,
推理时你提升“思考预算”。


2️⃣ 为什么 Test Time Scaling 有用?

Transformer 本质是:

\( P(y|x) = \prod P(y_t | x, y_{<t}) \)

但在一次 greedy decoding 时:

  • 每一步只采样一次
  • 不会回头修正
  • 不会多路径搜索

这其实是一个 近似推理过程

如果我们允许:

  • 多次采样
  • 多路径生成
  • 自我反思
  • 重排序
  • 投票

就等于让模型“多想几步”。

这就是 TTS。


3️⃣ 最经典的 TTS 技术

我们用真实模型举例。


① Self-Consistency(多样本投票)

出自 Google 在
Google Research 的论文(Chain-of-Thought 系列)

做法:

  1. 对同一个问题采样 N 次
  2. 每次生成完整 reasoning path
  3. 对最终答案投票

举例

问:

17×23 = ?

模型一次可能算错。

但如果采样 20 次:

  • 15 次得到 391
  • 5 次得到 361

投票后选 391。

效果:

  • GSM8K 数学准确率显著提升
  • 不改模型参数

代价:

  • 推理成本 × N

② Tree-of-Thought(搜索)

来自
Princeton University

Google DeepMind

核心思想:

把推理过程当成搜索树

步骤:

  1. 生成多个候选“思考分支”
  2. 评估每个分支
  3. 保留 top-k
  4. 继续展开

本质类似:

  • Beam Search
  • MCTS

优点:

  • 复杂推理能力大幅提升

缺点:

  • 成本极高(指数级增长)

③ ReAct + Self-Refine

典型应用在
OpenAI 的 GPT-4 风格系统中。

流程:

  1. 生成初始答案
  2. 让模型自评
  3. 修改
  4. 再输出

相当于:

forward → critic → revise → output

这是一种“单模型多步推理”。


④ Best-of-N Sampling

很多闭源模型内部使用:

例如:

  • 生成 16 个答案
  • 用 reward model 评分
  • 选最高分

这叫:

inference-time reranking

在 RLHF 模型中非常常见。


4️⃣ 为什么 TTS 在大模型中特别有效?

关键原因:

1️⃣ 模型内部已经具备多解能力

大模型不是 deterministic solver。

它内部是:

\( P(y|x) \)

分布里包含:

  • 正确 reasoning path
  • 错误 reasoning path

一次采样可能抽错。

多采样 → 更接近真实分布峰值。


2️⃣ 大模型“容量充足”

例如:

OpenAI 的
GPT-4

它的能力并不是受“知识不足”限制,

而是受“单次解码预算”限制。

给它更多 token 预算:

  • 会出现更长的 chain-of-thought
  • 会进行错误修正
  • 会反思

5️⃣ 数学直觉

假设:

  • 单次回答正确率 = 70%
  • 错误独立

那么:

多次投票正确率:

\( P_{vote} = \sum_{k>\frac{N}{2}} \binom{N}{k} p^k (1-p)^{N-k} \)

当 N=5,p=0.7:

正确率 ≈ 83%

当 N=10:

≈ 90%+

这就是 Test-Time Scaling 提升的来源。


6️⃣ 成本对比

假设:

  • 训练 1B token 成本 = X
  • 推理 1 次成本 = y

你可以:

  • 训练更大模型(成本极高)
  • 或者对现有模型多推理几次(成本线性增加)

在实际部署中:

Test Time Scaling 是比继续训练更便宜的能力提升方式。


7️⃣ 工程现实中的 TTS

工业系统中常见:

方法 是否常用 成本
temperature 多采样
best-of-n
beam search 有限
tree search 研究用
self-refine 越来越多

8️⃣ 一个直观类比

训练 Scaling Law 是:

提高大脑容量

Test Time Scaling 是:

让同一个大脑多想几次

你没有变聪明,

但你更认真了。


9️⃣ 一个关键趋势

最新研究表明:

在强模型上,Test-Time Scaling 的收益有时超过参数 Scaling。

这也是为什么很多模型:

  • 不再疯狂增大参数
  • 而是优化推理阶段

🔟 总结一句话

Test Time Scaling 是:

用推理时的额外计算,换取更高输出质量。

本质是:

在 inference 阶段做搜索、投票、反思、重排序。