惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

T
Tenable Blog
Last Week in AI
Last Week in AI
P
Proofpoint News Feed
Engineering at Meta
Engineering at Meta
H
Help Net Security
F
Fortinet All Blogs
MyScale Blog
MyScale Blog
宝玉的分享
宝玉的分享
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
博客园 - 司徒正美
量子位
N
Netflix TechBlog - Medium
Apple Machine Learning Research
Apple Machine Learning Research
小众软件
小众软件
Recorded Future
Recorded Future
博客园 - 三生石上(FineUI控件)
Vercel News
Vercel News
aimingoo的专栏
aimingoo的专栏
I
InfoQ
Microsoft Security Blog
Microsoft Security Blog
Scott Helme
Scott Helme
The Last Watchdog
The Last Watchdog
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
IT之家
IT之家
AI
AI
WordPress大学
WordPress大学
Security Archives - TechRepublic
Security Archives - TechRepublic
Google Online Security Blog
Google Online Security Blog
U
Unit 42
V2EX - 技术
V2EX - 技术
MongoDB | Blog
MongoDB | Blog
Schneier on Security
Schneier on Security
博客园 - Franky
H
Heimdal Security Blog
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Jina AI
Jina AI
W
WeLiveSecurity
P
Privacy & Cybersecurity Law Blog
Cloudbric
Cloudbric
B
Blog RSS Feed
N
News | PayPal Newsroom
S
Securelist
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
I
Intezer
Hacker News - Newest:
Hacker News - Newest: "LLM"
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
博客园_首页
罗磊的独立博客
H
Hackread – Cybersecurity News, Data Breaches, AI and More
雷峰网
雷峰网

逐水寻源

个人数据低成本自动化备份方案 异地组网:免域名免备案自建Tailscale DERP节点 家庭网络配置:利用 Docker 在闲置笔记本上运行 OpenWRT 作为旁路由 专家混合模型 (MoE) 详解:Mixtral 8X7B、DBRX 和 Deepseek-v2 的架构与应用 数学视角下的支持向量机(SVM):优化问题求解 VLDB 2024广州之旅 数据枯竭危机:AI发展面临的数据瓶颈与应对措施 微调GPT-4o-mini生成博客文章 AI Agent智能体四类设计模式:通用人工智能必经之路
RL 后训练进化论:从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励
Tim · 2025-11-28 · via 逐水寻源

深度解析DeepSeek-R1背后的GRPO/GSPO/DAPO等新一代强化学习算法,详解如何通过去除Critic网络将显存占用减半,对比PPO/GRPO/GSPO/DAPO的数学原理与工程实现差异,探讨DeepSeekMath-V2代表的大模型RL后训练从监督学习到自我博弈进化的范式转移。

在 DeepSeek-R1 惊艳亮相之前,行业内曾有一个心照不宣的误区:SFT(监督微调)负责传授知识,而 RLHF(基于人类反馈的强化学习)仅负责价值观对齐。直到今天,仍有很多人认为强化学习(RL)并没有真正让模型学到东西,而是对 SFT 阶段能力的微调和影响。但 R1 用令人咋舌的推理能力证明,强化学习才是解锁大模型深度推理(Reasoning)能力的真正钥匙。模型并非通过模仿人类学会了复杂的数学推导,而是在大规模的自我博弈与试错中“悟”出来的。

但 LLM 的进化道路被一道“显存墙”挡住了。传统的 PPO 算法对于 70B 甚至 1TB 的 MoE 模型而言,简直是资源黑洞。于是,一场关于 RL 后训练算法的“瘦身革命”悄然爆发。从 GRPO 的“去 Critic 化”,到 GSPO 的“维稳”,再到 DAPO 的“效率压榨”,我们正在见证 LLM 训练范式从模仿向探索的代际跃迁。


1 为什么我们要“杀掉” Critic?

在经典的 PPO 架构中,训练不仅仅是优化一个模型,而是维护一个复杂的生态系统。我们需要同时加载四个庞然大物:Actor(演员)负责生成答案,Reward Model(判卷人)负责打分,Reference Model(锚点)负责防止模型跑偏,以及最麻烦的——Critic(评论家)。

Four-Model-Roles-in-RL-Post-Training

Critic 的核心职责是预测当前状态的未来价值 $V(s)$。在传统的强化学习任务中,Critic 至关重要。但在大模型训练的语境下,Critic 变成了一个巨大的累赘。

首先是显存噩梦。Critic 模型通常与 Actor 同等规模。这意味着如果你要训练一个 70B 的模型,仅为了计算梯度,你就需要承载双倍的参数量。对于动辄几百 GB 显存的 MoE 模型,这几乎判了 PPO 的死刑。

其次,也是更本质的问题:在开放域生成任务中,训练一个准确的 Critic 极其困难。 面对无限的文本生成空间,Critic 往往难以准确预测长推理链条末端的价值。一个训练不好的 Critic 不仅不能降低方差,反而会向 Actor 注入大量的噪声梯度,导致模型越练越傻。

既然 Critic 又贵又笨,DeepSeek 等团队提出了一个大胆的假设:我们是否可以完全抛弃价值网络,直接利用统计学规律来估计优势?

2 DeepSeek的时代,GRPO的时代

为了验证“去 Critic”的可行性,工业界演化出了三条主要的技术路线。它们并非凭空出现,而是为了解决前人在工程落地中遇到的具体“坑”而逐步迭代出来的。

2.1 GRPO:DeepSeek 的“减法”哲学

核心逻辑:用“组内相对排名”替代“绝对分数预测”。

DeepSeekMath 和 R1 背后的核心算法是 GRPO。它的直觉非常朴素:在一个复杂的数学推理任务中,与其训练一个 Critic 去预测“这一步能得 0.8 分还是 0.9 分”(这很难且不准),不如直接让模型对同一个问题生成一组(比如 64 个)答案,然后看看谁做得比平均水平好

GRPO-vs-PPO

对于同一个 Prompt,GRPO 会让模型采样生成一组(Group)答案。算法计算这组答案的平均奖励作为基线(Baseline)。凡是得分高于平均值的答案,就获得正向的梯度更新;反之则受到惩罚。

其核心优势函数(Advantage)不再依赖 $V(s)$,而是完全基于组内统计: $$A_i = \frac{r_i - \text{mean}({r_1…r_G})}{\text{std}({r_1…r_G}) + \epsilon}$$

这种方法巧妙地利用了组内统计量替代了 Critic 的价值估计,直接将显存占用减半。它证明了在数理逻辑等有明确判别标准的任务中,相对优势比绝对价值更有效。

算法执行: 1. 对于同一个 Prompt $q$,采样生成 $G$ 个输出 ${o_1, o_2, …, o_G}$。 2. 计算这组输出的奖励 ${r_1, …, r_G}$(通常由规则或轻量级模型给出)。 3. 计算组内平均奖励 $\mu$ 和标准差 $\sigma$。 4. 计算优势(Advantage):$A_i = (r_i - \mu) / (\sigma + \epsilon)$。 5. 更新策略:如果 $A_i > 0$,则提高该输出中所有 Token 的生成概率;反之则降低。

这种方法巧妙地利用了组内统计量作为动态基线(Dynamic Baseline),直接去掉了 Critic 模型,将显存占用减去1/3.

2.2 GSPO:Qwen 的“维稳”改良

核心逻辑:修正 Token 级更新的数学偏差,用“整体主义”拯救 MoE。

当阿里云 Qwen 团队试图将 GRPO 应用于超大规模 MoE(混合专家) 模型(如 Qwen2.5-Math)时,他们遇到了严重的训练稳定性问题。他们发现 GRPO 存在一个隐蔽的数学缺陷:奖励的粒度与更新的粒度不匹配。

在 GRPO 中,我们得到的是整个序列的奖励(这道题做对了吗?),但我们在计算梯度时,是针对每个 Token 单独计算概率比率(Importance Ratio)的。这就好比一个团队拿了奖金,GRPO 简单粗暴地认为每个成员(Token)的贡献是一样的。这种近似在稠密模型(Dense)上还能凑合,但在对噪声极度敏感的 MoE 模型上,会导致梯度的方差极大,极易引发模型崩溃。

GSPO 的改进细节: 不再纠结于单个 Token 的得失,而是将优化的视角拉高到了 整个序列(Sequence) 层级。

  • 序列级重要性采样(Sequence-Level IS): GSPO 计算的是整个生成序列的联合概率比率,而不是单个 Token 比率的平均值。 $$\rho_{seq} = \frac{P_{\text{new}}(\text{整个句子})}{P_{\text{old}}(\text{整个句子})} = \prod_{t=1}^T \frac{\pi_\theta(y_t | y_{<t}, x)}{\pi_{\theta_{old}}(y_t | y_{<t}, x)}$$
  • 整体截断: 它根据这个 $\rho_{seq}$ 对整个序列的更新幅度进行截断(Clip)。这意味着,模型要么“全盘接受”这个序列的更新信号,要么“全盘拒绝”,保证了更新方向的一致性。

这种“整体主义”的策略,从数学上消除了 Credit Assignment(信用分配)带来的噪声,是目前在大规模集群上训练 MoE 模型的一种稳健方案。

2.3 DAPO:字节系的“效率”压榨

核心逻辑:打破 PPO 的对称性束缚,只在“纠结区”做功。

字节跳动 Seed 团队提出的 DAPO 并不满足于仅仅“跑通”训练,他们更关注样本效率策略多样性。他们发现了传统算法的两个低效之处:

  1. PPO 的截断太保守:PPO 默认将更新幅度限制在 $[1-\epsilon, 1+\epsilon]$(例如 0.8 到 1.2 倍)。这对称地限制了变好和变坏的幅度。
  2. 简单样本浪费算力:如果一组 Prompt 模型全做对了,或者全做错了,梯度信息量其实很低,继续训练就是浪费。

DAPO 针对这两点进行了外科手术式的改良:

  • 解耦截断(Asymmetric Clip)—— 鼓励天才的灵光一现: DAPO 认为,“变好”和“变坏”的风险是不对等的。

    • 如果模型发现了一条前所未有的高分路径($A > 0$),这是一次宝贵的探索(Exploration),我们不应该死板地限制在 1.2 倍。DAPO 引入了一个更大的上限 $\delta$(比如允许更新到 1.5 倍或更高)。
    • 如果模型表现变差了($A < 0$),则依然严格限制下限,防止模型崩溃。 这种非对称设计(Clip-Higher)有效地缓解了 RL 训练后期的“熵坍塌”问题,保持了模型的多样性。
  • 动态采样(Dynamic Sampling)—— 拒绝无效刷题: DAPO 会实时监控每个 Prompt 组的准确率分布。

    • 全对 ($Acc=1$)全错 ($Acc=0$) 的组,其组内方差为 0,优势函数 $A_i$ 趋近于 0,提供的梯度几乎无效。DAPO 会自动降低这些样本的采样权重。
    • 算法将算力集中在 $0 < Acc < 1$ 的“纠结区”。这些是模型“努努力能做对,但不小心会做错”的认知边界,训练性价比最高。

配合动态采样机制(自动剔除全对或全错的简单样本),DAPO 在 AIME 等评测中证明了:在数学上打破对称性,并配合高质量的采样策略,比单纯的数据堆叠更重要。

3 数学本质与前沿变体

在表面上,它们都是为了让模型得分更高,但在数学本质上,它们处理的是 策略梯度(Policy Gradient)中“优势函数(Advantage)”估计的偏差与方差权衡

所有 PPO 类算法的目标函数都可以抽象为: $$L(\theta) = \mathbb{E} \left[ \min(r_t(\theta) \cdot A_t, \text{clip}(r_t(\theta)) \cdot A_t) \right]$$ 其中 $r_t$ 是新旧策略的概率比率,$A_t$ 是优势函数。三大算法的“手术刀”动在不同的位置:

维度 PPO (传统) GRPO (DeepSeek) GSPO (Qwen) DAPO (ByteDance)
优势 $A_t$ 来源 价值网络
$A = R - V(s)$
(需训练 Critic)
组内统计
$A = (R - \mu) / \sigma$
(无需 Critic)
组内统计
同 GRPO
组内统计
同 GRPO
比率 $r_t$ 粒度 Token 级
逐词更新
Token 级
原始版存在偏差
Sequence 级
全序列统一权重
Token 级 + 修正
动态调整 Clip 边界
核心数学假设 $V(s)$ 能预测未来 组内方差代表真实方差 序列奖励不可拆分 非对称的更新更高效

如果我们剥开这三个算法的工程外衣,会发现它们在本质上都在解决同一个核心问题:如何在没有 Value Function 的情况下,低方差地估计策略梯度。

它们共享一个根本性的数学假设:蒙特卡洛采样均值可以替代价值网络估计。 但在如何处理方差基线估计上,一些变体给出了更精彩的答案:

  • Dr. GRPO (GRPO Done Right)

    • 问题:GRPO 原文中使用标准差 $\sigma$ 进行归一化。当 Group Size 较小或模型收敛到单一模式时,$\sigma \rightarrow 0$,导致分母极小,Advantage 数值爆炸。
    • 解法:Dr. GRPO 建议放弃标准差归一化,转而使用 分位数归一化 或简单的 常数归一化。这让小 Batch Size 的训练更加安全,防止了训练后期的数值不稳定。
  • RLOO (Reinforce Leave-One-Out)

    • 问题:GRPO 使用全组均值(包括自身)作为 Baseline,这在统计学上是有轻微偏差的。
    • 解法:RLOO 采用“留一法”估计基线。对于第 $i$ 个样本,Baseline 是除了它自己之外的所有样本均值: $$Baseline_i = \frac{1}{G-1} \sum_{j \neq i} r_j$$
    • 意义:这是一个无偏估计量(Unbiased Estimator)。虽然计算复杂度不变,但在数学上更严谨,目前在 HuggingFace TRL 库中,RLOO 往往比原始 GRPO 收敛得更快更稳。
  • ReMax (Reward Maximization)

    • 问题:如果显存连 Group Sampling 都跑不动怎么办?
    • 解法:ReMax 返璞归真,使用 Greedy Baseline。它不进行随机采样,而是拿模型贪婪解码(Greedy Decoding)生成的那个结果作为基线。比贪婪解码好的才奖励,差的就惩罚。它是 GRPO 的极简特例(可以理解为 Group Size=2 的变体),被称为“穷鬼的 GRPO”,适合资源极度受限的场景。但实际上,ReMax 要比GRPO更早提出可以去除Critic这个理念。

4 授人以鱼不如授人以渔

如果说 GRPO (DeepSeekMath-V1) 解决了“没有 Critic 怎么办”的问题,那么昨天发布的 DeepSeekMath-V2 则回答了“RL 的下一步去向何方”。我们清晰地看到 RL 后训练正在经历一次深刻的范式转移:从“价值预测(Value Prediction)”转向“自主过程验证(Self Process Verification)”,即这种过程验证,在一定程度上是可以由模型自己完成的。

通俗一点说,PPO 类算法是引入一个Critic老师来评估模型的训练过程,老师只告诉你现在做的对不对、好不好,怎么改你自己看着办; GRPO 类算法则是通过模型自己跟“同学”比,自评做得好不好,怎么改还是自己看着办;但 DeepSeekMath-V2 则是给模型请了个家教 (Verifier),又请了个老师(Meta-Verifier)来监督这个家教,做两件事:1. 给模型提供过程奖励,告诉他每一步对错与否 2.培养他自己判断每一步是否正确,并在自己输出最终答案前调整; 这相当于是把老师揣摩多年的出题人评分标准交给模型了。

Critic 的消亡几乎已成定局。在一个长达数百步的 Chain-of-Thought 推理中,指望一个神经网络精准预测最终答案的价值是不现实的。但是,DeepSeek 引入的 Generator-Verifier 双模型架构揭示了新的可能。

现在的 RL 不再是单纯的“跑分比赛”,而是演变成了一种生成者与验证者的博弈。Verifier 不再像 Critic 那样试图预测未来,而是扮演“助教”的角色,对 Generator 的每一步推理进行 Step-by-step 的逻辑检查。这种 Process Reward(过程奖励) 提供的信号比稀疏的最终结果奖励要丰富得多。

这意味着,未来的训练架构将演变为 Self-Verification Loop(自我验证循环)。模型不仅是创作者,更是自己的审查者。通过 Verifier 指导 Actor 模型能力提升,Actor 也会反哺 Verifier 提高其鉴别能力,从而实现模型能力的进化。

5 结语

RL 后训练的战场已经变了。仅仅一年前,我们还在纠结 PPO 的超参数微调。现在,我们已经扔掉了 Critic,开始在 Sequence Level 上重构算法,甚至引入了专门的 Verifier 模型。

在2025年,我们看到了GRPO一族算法的爆发,产生了各类变体: GRPO 的极简主义,GSPO 的工程维稳,RLOO/DAPO 的数学修正… 在2026年,我们也许会看到许多自验证优化算法(Self-Verify Policy Optimization),就让我们拭目以待,看看一年后能有多少 S*PO 算法吧。

但无论如何,它们都在指向同一个终局:依靠人工标注 SFT 的时代已成过去,模型自我博弈、自我进化的 RL 时代已经全面到来。


6 参考

  1. GRPO (Group Relative Policy Optimization)
    DeepSeek. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” arXiv:2501.12948, 2025.
    https://arxiv.org/abs/2501.12948

  2. GSPO (Group Sequence Policy Optimization)
    Qwen Team. “Group Sequence Policy Optimization for Large-Scale Alignment.” arXiv:2507.18071, 2025.
    https://arxiv.org/abs/2507.18071

  3. DAPO (Dynamic Asymmetric Policy Optimization)
    ByteDance Seed Team. “DAPO: An Open-Source LLM Reinforcement Learning System at Scale.” arXiv:2503.14476, 2025.
    https://arxiv.org/abs/2503.14476

  4. Dr. GRPO (GRPO Done Right)
    Anonymous. “Understanding R1-Zero-Like Training: A Critical Perspective on GRPO Instability.” arXiv:2503.20783, 2025.
    https://arxiv.org/abs/2503.20783

  5. RLOO (Reinforce Leave-One-Out)
    Dong et al. “Revisiting REINFORCE-Style Optimization for Learning from Human Feedback.” arXiv:2402.14740, 2024.
    https://arxiv.org/abs/2402.14740

  6. ReMax (Reward Maximization with Greedy Baseline)
    Park et al. “ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning LLMs.” arXiv:2310.10505, 2023.
    https://arxiv.org/abs/2310.10505

  7. Generator-Verifier Architecture & Process Reward (DeepSeekMath-V2)
    DeepSeek Team. “DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning.” Technical Report, 2025-11-26.
    https://huggingface.co/deepseek-ai/DeepSeekMath-V2/technical-report

  8. Self-Verification Loop
    Li et al. “Trust, But Verify: A Self-Verification Approach to Reinforcement Learning from Human Feedback.” arXiv:2505.13445, 2025.
    https://arxiv.org/abs/2505.13445

AI声明:首图由Gemini创建;观点与思考来自作者,整理与编写来自Gemini-3-Pro-Preview;作者对本文内容负责;