





















2025年图灵奖颁给了强化学习的奠基人Richard Sutton和Andrew Barto。为什么强化学习如此重要?它如何从训练老鼠变成训练大模型?这篇文章带你一探究竟。
1930年代,心理学家斯金纳做了一个著名实验:
实验过程:

老鼠学会了什么?
"按杠杆 = 有吃的!"
这就是强化学习的核心思想:通过尝试动作,根据获得的奖励调整行为。
半个世纪后,这个思想启发了AI研究者:
如果老鼠能通过"奖励"学会行为,机器能不能也这样学习?
1950年,图灵提出"通过奖惩机制训练机器"的设想。
1957年,Minsky正式提出"强化学习"概念。
强化学习(Reinforcement Learning, RL):让智能体通过与环境交互和"试错",学习最优决策策略以最大化长期累积奖励。
类比:
强化学习就像训练宠物:它做对了给奖励(零食),做错了不给奖励。慢慢地,它就学会做正确的事情。
机器学习有三大范式:
| 类型 | 学习方式 | 数据特点 | 例子 |
|---|---|---|---|
| 有监督学习 | 从标注数据学习映射 | 有"标准答案" | 图像分类 |
| 无监督学习 | 从数据中发现模式 | 无标签 | 聚类分析 |
| 强化学习 | 通过交互和奖励学习 | 数据来自交互过程 | 游戏AI |
关键区别:
强化学习的目标:学一套"看情况做决定"的策略
把任何状态映射成最优动作,使得长期累计奖励最大。
用一个例子来理解:训练一个游戏AI
| 概念 | 游戏中的例子 | 说明 |
|---|---|---|
| 智能体(Agent) | 游戏AI | 决策和行动的主体 |
| 环境(Environment) | 游戏世界 | 智能体所处的外部系统 |
| 状态(State) | 当前游戏画面 | 环境在某一时刻的描述 |
| 动作(Action) | 移动、攻击、跳跃 | 智能体可执行的行为 |
| 奖励(Reward) | 得分+10、被击中-5 | 环境对动作的反馈 |
策略(Policy):智能体选择动作的规则
价值函数(Value Function):评估某个状态长期能获得多少奖励

循环过程:
| 时间 | 事件 |
|---|---|
| 2015年10月 | AlphaGo击败人类职业选手樊麾 |
| 2016年3月 | AlphaGo 4:1击败李世石 |
| 2017年5月 | AlphaGo Master 3:0击败柯洁 |
AlphaGo的秘密:
2025年1月,DeepSeek发布DeepSeek-R1:
这是一个里程碑:用强化学习训练大模型的推理能力。
关键创新:
为什么重要?
证明了强化学习可以让大模型学会"推理",而不只是"预测下一个字"。
获奖者:Richard Sutton和Andrew Barto
Richard Sutton的获奖感言:
"强化学习的本质是从经验中学习,这是最自然的学习方式。"
Q-Learning是强化学习最经典的入门算法,1989年由Watkins提出。
核心思想:建立一个"Q表",记录每个状态-动作组合的价值。
想象一个迷宫游戏:
| 状态 | 动作 | Q 值 (价值) | 备注 |
|---|---|---|---|
| 位置 A | 向左 | 0.1 | |
| 位置 A | 向右 | 0.8 | 价值最高 |
| 位置 A | 向上 | 0.2 | |
| 位置 B | 向左 | 0.9 | 这里向左好 |
| 位置 B | 向右 | -0.1 |
智能体决策:
Q值更新公式(贝尔曼方程):
新Q值 = 当前Q值 + 学习率 × (奖励 + γ×最大未来Q值 - 当前Q值)
通俗解释:
你以为这个动作值10分
实际做了,立刻得到5分,加上预计未来最多能得8分
所以实际应该值5+8=13分
需要更新你的认识:从10分调到接近13分
Q表方法有一个致命问题:状态太多时,Q表存不下!
比如:
解决方法:用神经网络代替Q表 → DQN(深度Q网络)
PPO(Proximal Policy Optimization)是OpenAI开发的算法,广泛应用于大模型训练。
核心思想:每次更新策略时,不要改变太大,保持稳定。
类比:
学习新技能时,不要一次学太多,慢慢进步,避免"走火入魔"。
PPO的优点:
DPO(Direct Preference Optimization)是一种新方法,不需要训练奖励模型!
传统RLHF流程:
1. 训练奖励模型(RM)
2. 用奖励模型训练策略
DPO流程:
直接用偏好数据优化策略,一步到位!
为什么DPO好?
RLHF(Reinforcement Learning from Human Feedback)是大模型训练的关键环节。
流程:
效果:
DeepSeek-R1展示了RL的新用法:训练推理能力
传统大模型问题:
DeepSeek-R1的解决方案:
结果:
AlphaGo和DeepSeek-R1有什么共同点?
| 对比 | AlphaGo | DeepSeek-R1 |
|---|---|---|
| 任务 | 围棋 | 文本推理 |
| 环境 | 棋盘 | 语言任务 |
| 奖励 | 赢棋得分 | 推理正确性 |
| 学习方式 | 自我对弈 | 自我推理 |
共同核心:通过自我试错,学习最优策略!
RL训练容易出现:
原因:奖励信号稀疏,策略更新复杂
RL需要大量试错才能学习。
AlphaGo自我对弈了数百万盘棋!
Andrej Karpathy指出:RL会使模型的"熵降低"。
解释:模型变得更保守、更确定,可能减少创造性。
如果奖励模型(RM)判断错误,模型就会学错。
类比:如果老师评分标准有问题,学生就会学歪。
| 场景 | 适合RL? | 原因 |
|---|---|---|
| 游戏AI | ✅ 适合 | 有明确奖励(得分) |
| 大模型后训练 | ✅ 适合 | 人类偏好作为奖励 |
| 简单分类任务 | ❌ 不适合 | 有监督学习更高效 |
| 需要创造性的任务 | ⚠️ 需谨慎 | RL可能降低多样性 |
| 方案 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|
| RLHF | 效果可能更好 | 流程复杂 | 大规模训练 |
| DPO | 简单高效 | 效果可能略差 | 快速迭代 |
可以! 开源工具:
实践建议:
Richard Sutton说:
"强化学习的本质是从经验中学习,这是最自然的学习方式。"
从斯金纳箱里的老鼠,到打败围棋世界冠军的AlphaGo,再到推理能力强大的DeepSeek-R1——强化学习展示了AI的一种核心学习范式:
不是被告知答案,而是通过尝试和反馈,自己学会怎么做。
这正是通向更智能AI的关键路径!
| 年份 | 事件 |
|---|---|
| 1930s | 斯金纳箱实验 |
| 1950 | 图灵提出奖惩机制设想 |
| 1957 | Minsky提出强化学习概念 |
| 1985 | Sutton&Barto发展TD-Learning |
| 1989 | Watkins提出Q-Learning |
| 2013 | DeepMind提出DQN |
| 2016 | AlphaGo击败李世石 |
| 2022 | ChatGPT使用RLHF |
| 2025 | DeepSeek-R1用RL训练推理 |
| 2025 | Sutton&Barto获图灵奖 |
下一篇预告:RAG入门——让大模型学会开卷考试
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。