大模型基础（四）：强化学习入门-从斯金纳箱到大模型推理

博客园_首页

Linux实操--组管理、权限管理和定时任务 Java + EasyExcel 实现单个接口导出多个Excel Mem0 源码解析系列（二）：提示词工程的深度剖析 Openclaw TaskFlow究竟是什么？和普通Skill技能有什么区别博文阅读密码验证 - 博客园嘉立创开源：应该是全网MicroPython教程最多的开发板 Hermes Agent 集成实践：从协议到生产 2026年AI编程工具横评：Cursor、Codex、Claude Code、Zed、Windsurf Java程序员必看的RAG入门教程 2026 AI效率神器：Superpowers + Claude Code 保姆级教程本地大模型部署全攻略：从 0 到 1 玩转 Ollama 【从0到1构建一个ClaudeAgent】内存管理-上下文压缩 .NET 高级开发 | 设计、实现一个事件总线框架电子小白入门之NE555 3. WorkBuddy：隐藏玩法，一键召唤专家，让 AI 以"专家身份"给你干活和AI一起搞事情#3：Claude Teammate 游戏开发翻车实录【OpenClaw】通过 Nanobot 源码学习架构---（7）Memory C# .NET 周刊｜2026年3月3期我在 Debian 11 上把 K8s 单机搭起来了，过程没你想的那么顺（/opt 目录版）深度学习进阶（七）Data-efficient Image Transformer CLI+Skill搭建浏览器AI自动化框架，告别一切重复枯燥任务告别Token账单无底洞：OpenClaw本地部署，重塑企业数据主权的唯一解 FastAPI+Vue：文件分片上传+秒传+断点续传，这坑我帮你踩平了！ SBTI 爆火后，我做了个程序员版的 CBTI。。已开源 + 附开发过程多模态检索开始进入工程期：用 Sentence Transformers 搭建可落地的 Multimodal RAG 100多行代码实现一个最简单的Agent(用ReAct) Claude Code 通关手册（八）：推荐 5 个 Hooks，代码质量提升 3 倍老板：“有人截图了！”。安全部门：“收到，马上查暗水印！” - why技术技术之外，皆是人间 C#/.NET/.NET Core技术前沿周刊 | 第 69 期（2026年4.01-4.12） Snack JSONPath 项目架构分析 Claude Code Buddy 小析：一个非核心功能，如何体现产品的细节完成度 AI新时代下的图床管理方案-Cloudflare图床+MCP+Skills方案指南化繁为简：顺丰速运App如何通过 HarmonyOS SDK实现专业级空间测量从零实现富文本编辑器#13-React非编辑节点的内容渲染 AI开发-python-langchain框架（3-23-OpenAI Functions风格Tool Calling智能助手） .NET + AI 进阶实战：基于类的技能开发 - 打造可治理的 Agent 能力模块【从0到1构建一个ClaudeAgent】规划与协调-技能上周热点回顾（4.6-4.12）电子小白的工具三件套：面包板、杜邦线、万能板单表五亿数据的查询优化 | Mysql、StarRocks 2. WorkBuddy：从“我是谁”到“帮我干活” C# 如何减少代码运行时间：7 个实战技巧基于HelixToolkit.SharpDX 渲染3D模型 - 笺上知微从零开始的双臂具身VLA起源及现阶段发展综述 - SkyXZ 记对 xonsh shell 的使用, 脚本编写, 迁移及调优 - pluvium27 受够了Vibe Coding的失控？换个起点，让AI事半功倍从开始配置漏洞环境到漏洞复现流程 - 難しい关于10年工作经验的程序员对OpenClaw的实战经验分享以及看法 - 虚无境 Any metadata 的内存布局 C# .NET 周刊｜2026年3月2期 - InCerry 我帮你测过了，测试圈排名第二的 Skill 依然很牛逼 Skill Discovery | 无监督技能发现的经典工作总结 - MoonOut PbootCMS 网站内容数量多导致访问慢？这些实用优化方案帮你提速！ - 家兴网络技术工作室上下文工程是什么？过时了么？一文讲明白！ - 一枫说码网站漏洞怎么发现并修复？一篇实用指南（附完整流程） - 家兴网络技术工作室开了 TUN 模式还是直连？90% 的人都踩过这个坑 Github日报|2026年04月12日 - AI一族 AScript扩展多种脚本语言 - rockey627 AI 学习笔记：Agent 的记忆机制你能被装进一个文件里吗？——7 万人把同事"蒸馏"成了 AI - 我没有三颗心脏 Claude Code 通关手册（七）：给 AI 装上技能包——Skills 完全指南 - 暮色之狐在浏览器中快速编辑代码：VSCode Web 集成实践 - Newbe36524 蒸馏自己 skill？基于 Deepseek 的蒸馏器，丐版蒸馏方式，简单便捷 - To_Carpe_Diem Spring AI Aliababa和AgentScope，哪个更好？ - 苏三说技术 Etsy 把 1000 个 MySQL 分片迁进 Vitess：425TB 数据背后的真正问题不是性能，而是运维规模 MicroPython LVGL基础知识和概念：底层渲染与性能优化 - FreakStudio 数据库草图算法 Python 潮流周刊#146：CPython 引入 Rust 的进展 - 豌豆花下猫最小生成树 - mofei1116 红日靶场七：从外网入口、容器逃逸到 AD 接管的完整利用链复盘 - YouDiscovered1t 分享四款开源且实用的 Kafka 管理工具 - 追逐时光者 vLLM 权重加载机制全解析：从挑战到理想架构 LCT 学习笔记 - ACehomoxue Avalonia UI 12.0.0 正式发布：架构演进和性能飞跃 - 张善友当 AI Agent 把调用链拉长，延迟开始成为一门生意 conhost.exe 无法显示 U+2717 - 145a 太秀了，我把自己蒸馏成了 Skill！已开源 - 程序员鱼皮 ASP.NET Core 内存缓存实战：一篇搞懂该怎么配、怎么避坑基于 Ghostty 带有分割标签页和为 Claude 编程设计的通知终端 - BugShare AI 焊死入口：教育的“操作系统级”重塑 - 郝hai 初级Java开发工程师使用sql脚本编写代码的过程是简单而且不糊涂 - CoderOilStation Claude Code通关手册（六）：MCP协议完全指南 - 暮色之狐边框灯光环绕动画特效实现指南 - Newbe36524 开源：子木蒸馏版的 SEO 审计工具 seo-audit-skill v1.0 我所理解的Python元模型【从0到1构建一个ClaudeAgent】规划与协调-TodoWrite - 程序员Seven Claude 和 Codex 在审计 Skill 上性能差异探究 - ACai_sec AScript如何实现中文脚本引擎 - rockey627 【渗透测试】HTB Season10 Garfield 全过程wp - dynasty_chenzi Android 开发者为什么必须掌握 AI 能力？端侧视角下的技术变革树状数组正确性证明 - AC-wyr 你的 AI 焦虑，可能比 AI 本身更危险——ATM 机没有消灭银行柜员，但恐慌消灭了你的判断力 - 我没有三颗心脏一个拉胯的分库分表方案有多绝望？整个部门都在救火！ - 冰河团队动态规划入门必学之走方格问题 - Ofnoname PostgREST 与 PostgreSQL 角色权限配置全解析（生产级实践） - SheepDog1998 使用 UEFI 图形输出协议 GOP 在屏幕上显示图像的方法 - 阿源- Claude Code通关手册（五）：组建你的AI专家团队，子代理系统 - 暮色之狐一个程序员到架构师的催婚路之感悟（整整10年后的催婚相亲感悟） - MisterLip 用 Agent Skill 自动生成工作周报 - 赵康

wenha · 2026-05-04 · via 博客园_首页

2025年图灵奖颁给了强化学习的奠基人Richard Sutton和Andrew Barto。为什么强化学习如此重要？它如何从训练老鼠变成训练大模型？这篇文章带你一探究竟。

一、一个老鼠实验引发的革命

1.1 斯金纳箱：强化学习的源头

1930年代，心理学家斯金纳做了一个著名实验：

实验过程：

把一只老鼠放进箱子
箱子里有一个杠杆
老鼠偶然按压杠杆 → 食物掉出来（奖励）
多次之后 → 老鼠主动频繁按压杠杆

老鼠学会了什么？

"按杠杆 = 有吃的！"

这就是强化学习的核心思想：通过尝试动作，根据获得的奖励调整行为。

1.2 从老鼠到AI

半个世纪后，这个思想启发了AI研究者：

如果老鼠能通过"奖励"学会行为，机器能不能也这样学习？

1950年，图灵提出"通过奖惩机制训练机器"的设想。

1957年，Minsky正式提出"强化学习"概念。

二、什么是强化学习？

2.1 定义

强化学习（Reinforcement Learning, RL）：让智能体通过与环境交互和"试错"，学习最优决策策略以最大化长期累积奖励。

类比：

强化学习就像训练宠物：它做对了给奖励（零食），做错了不给奖励。慢慢地，它就学会做正确的事情。

2.2 和其他机器学习方法有什么不同？

机器学习有三大范式：

类型	学习方式	数据特点	例子
有监督学习	从标注数据学习映射	有"标准答案"	图像分类
无监督学习	从数据中发现模式	无标签	聚类分析
强化学习	通过交互和奖励学习	数据来自交互过程	游戏AI

关键区别：

有监督学习：老师告诉你答案（"这是猫"）
无监督学习：自己找规律（"这些图片很像"）
强化学习：环境告诉你好不好（"得分+10"）

2.3 强化学习在学什么？

强化学习的目标：学一套"看情况做决定"的策略

把任何状态映射成最优动作，使得长期累计奖励最大。

三、强化学习的核心概念

3.1 五大要素

用一个例子来理解：训练一个游戏AI

概念	游戏中的例子	说明
智能体（Agent）	游戏AI	决策和行动的主体
环境（Environment）	游戏世界	智能体所处的外部系统
状态（State）	当前游戏画面	环境在某一时刻的描述
动作（Action）	移动、攻击、跳跃	智能体可执行的行为
奖励（Reward）	得分+10、被击中-5	环境对动作的反馈

3.2 策略和价值函数

策略（Policy）：智能体选择动作的规则

"看到敌人就攻击"
"血量低就逃跑"

价值函数（Value Function）：评估某个状态长期能获得多少奖励

"当前状态很好（血量高、装备好）"
"当前状态很差（血量低、被包围）"

3.3 交互循环

循环过程：

智能体观察当前状态
根据策略选择动作
环境执行动作，返回新状态和奖励
智能体根据奖励调整策略
重复...

四、强化学习的高光时刻

4.1 AlphaGo：震惊世界

时间	事件
2015年10月	AlphaGo击败人类职业选手樊麾
2016年3月	AlphaGo 4:1击败李世石
2017年5月	AlphaGo Master 3:0击败柯洁

AlphaGo的秘密：

使用强化学习自我对弈
通过不断试错学习最优策略
最终超越人类顶尖棋手

4.2 DeepSeek-R1：大模型的突破

2025年1月，DeepSeek发布DeepSeek-R1：

这是一个里程碑：用强化学习训练大模型的推理能力。

关键创新：

自我创建和调整的奖励系统
在Math-500等基准测试中媲美OpenAI o1
以极低算力成本实现顶尖性能

为什么重要？

证明了强化学习可以让大模型学会"推理"，而不只是"预测下一个字"。

4.3 2025年图灵奖

获奖者：Richard Sutton和Andrew Barto

Richard Sutton的获奖感言：

"强化学习的本质是从经验中学习，这是最自然的学习方式。"

五、经典算法：Q-Learning

5.1 什么是Q-Learning？

Q-Learning是强化学习最经典的入门算法，1989年由Watkins提出。

核心思想：建立一个"Q表"，记录每个状态-动作组合的价值。

5.2 Q表是什么？

想象一个迷宫游戏：

状态	动作	Q 值 (价值)	备注
位置 A	向左	0.1
位置 A	向右	0.8	价值最高
位置 A	向上	0.2
位置 B	向左	0.9	这里向左好
位置 B	向右	-0.1

智能体决策：

在位置A → Q表显示向右价值最高 → 选择向右
在位置B → Q表显示向左价值最高 → 选择向左

5.3 Q值怎么更新？

Q值更新公式（贝尔曼方程）：

新Q值 = 当前Q值 + 学习率 × (奖励 + γ×最大未来Q值 - 当前Q值)

通俗解释：

你以为这个动作值10分
实际做了，立刻得到5分，加上预计未来最多能得8分
所以实际应该值5+8=13分
需要更新你的认识：从10分调到接近13分

5.4 Q-Learning的局限

Q表方法有一个致命问题：状态太多时，Q表存不下！

比如：

围棋状态：约10^170种（天文数字）
游戏画面：像素级别的状态

解决方法：用神经网络代替Q表 → DQN（深度Q网络）

六、进阶算法：PPO与DPO

6.1 PPO：稳定高效的强化学习

PPO（Proximal Policy Optimization）是OpenAI开发的算法，广泛应用于大模型训练。

核心思想：每次更新策略时，不要改变太大，保持稳定。

类比：

学习新技能时，不要一次学太多，慢慢进步，避免"走火入魔"。

PPO的优点：

训练稳定
样本效率高
易于实现

6.2 DPO：更简单的替代方案

DPO（Direct Preference Optimization）是一种新方法，不需要训练奖励模型！

传统RLHF流程：

1. 训练奖励模型（RM）
2. 用奖励模型训练策略

DPO流程：

直接用偏好数据优化策略，一步到位！

为什么DPO好？

更简单（省去RM训练）
更稳定（减少训练步骤）
效果接近传统方法

七、强化学习在大模型中的应用

7.1 RLHF：让模型更"听话"

RLHF（Reinforcement Learning from Human Feedback）是大模型训练的关键环节。

流程：

模型生成多个回答
人类排序这些回答
训练奖励模型学习人类偏好
用RL优化模型，使其生成人类喜欢的回答

效果：

减少有害内容
提高回答质量
使模型更符合人类价值观

7.2 训练推理能力：DeepSeek-R1的创新

DeepSeek-R1展示了RL的新用法：训练推理能力

传统大模型问题：

只会"预测下一个字"
缺乏逻辑推理能力

DeepSeek-R1的解决方案：

设计推理奖励（如"思考步骤是否正确"）
用RL训练模型学会推理
自我创建奖励系统

结果：

数学推理能力大幅提升
代码生成质量提高
接近o1模型的推理水平

7.3 AlphaGo到大模型：同样的思想

AlphaGo和DeepSeek-R1有什么共同点？

对比	AlphaGo	DeepSeek-R1
任务	围棋	文本推理
环境	棋盘	语言任务
奖励	赢棋得分	推理正确性
学习方式	自我对弈	自我推理

共同核心：通过自我试错，学习最优策略！

八、强化学习的挑战与局限

8.1 训练不稳定

RL训练容易出现：

崩溃（奖励突然下降）
震荡（忽好忽坏）
收敛困难

原因：奖励信号稀疏，策略更新复杂

8.2 样本效率低

RL需要大量试错才能学习。

AlphaGo自我对弈了数百万盘棋！

8.3 多样性降低

Andrej Karpathy指出：RL会使模型的"熵降低"。

解释：模型变得更保守、更确定，可能减少创造性。

8.4 RM准确性问题

如果奖励模型（RM）判断错误，模型就会学错。

类比：如果老师评分标准有问题，学生就会学歪。

九、给技术人员的启示

9.1 什么时候用RL？

场景	适合RL？	原因
游戏AI	✅ 适合	有明确奖励（得分）
大模型后训练	✅ 适合	人类偏好作为奖励
简单分类任务	❌ 不适合	有监督学习更高效
需要创造性的任务	⚠️ 需谨慎	RL可能降低多样性

9.2 RLHF vs DPO：选哪个？

方案	优点	缺点	适用场景
RLHF	效果可能更好	流程复杂	大规模训练
DPO	简单高效	效果可能略差	快速迭代

9.3 自己能实践RL吗？

可以！ 开源工具：

Stable Baselines3：经典RL算法库
DeepSpeed-Chat：大模型RLHF框架
TRL：HuggingFace的RL训练库

实践建议：

从简单环境开始（如CartPole游戏）
理解Q-Learning原理
尝试PPO算法
再进入大模型领域

十、总结：强化学习的本质

Richard Sutton说：

"强化学习的本质是从经验中学习，这是最自然的学习方式。"

从斯金纳箱里的老鼠，到打败围棋世界冠军的AlphaGo，再到推理能力强大的DeepSeek-R1——强化学习展示了AI的一种核心学习范式：

不是被告知答案，而是通过尝试和反馈，自己学会怎么做。

这正是通向更智能AI的关键路径！

关键时间线

年份	事件
1930s	斯金纳箱实验
1950	图灵提出奖惩机制设想
1957	Minsky提出强化学习概念
1985	Sutton&Barto发展TD-Learning
1989	Watkins提出Q-Learning
2013	DeepMind提出DQN
2016	AlphaGo击败李世石
2022	ChatGPT使用RLHF
2025	DeepSeek-R1用RL训练推理
2025	Sutton&Barto获图灵奖

参考资料

《Reinforcement Learning: An Introduction》- Sutton & Barto（经典教材）
AlphaGo论文：Silver et al., 2016
DeepSeek-R1技术报告：DeepSeek, 2025
InstructGPT论文：OpenAI, 2022
DPO论文：Rafailov et al., 2023

下一篇预告：RAG入门——让大模型学会开卷考试

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

博客园_首页

一、一个老鼠实验引发的革命

1.1 斯金纳箱：强化学习的源头

1.2 从老鼠到AI

二、什么是强化学习？

2.1 定义

2.2 和其他机器学习方法有什么不同？

2.3 强化学习在学什么？

三、强化学习的核心概念

3.1 五大要素

3.2 策略和价值函数

3.3 交互循环

四、强化学习的高光时刻

4.1 AlphaGo：震惊世界

4.2 DeepSeek-R1：大模型的突破

4.3 2025年图灵奖

五、经典算法：Q-Learning

5.1 什么是Q-Learning？

5.2 Q表是什么？

5.3 Q值怎么更新？

5.4 Q-Learning的局限

六、进阶算法：PPO与DPO

6.1 PPO：稳定高效的强化学习

6.2 DPO：更简单的替代方案

七、强化学习在大模型中的应用

7.1 RLHF：让模型更"听话"

7.2 训练推理能力：DeepSeek-R1的创新

7.3 AlphaGo到大模型：同样的思想

八、强化学习的挑战与局限

8.1 训练不稳定

8.2 样本效率低

8.3 多样性降低

8.4 RM准确性问题

九、给技术人员的启示

9.1 什么时候用RL？

9.2 RLHF vs DPO：选哪个？

9.3 自己能实践RL吗？

十、总结：强化学习的本质

关键时间线

参考资料