惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

www.infosecurity-magazine.com
www.infosecurity-magazine.com
Vercel News
Vercel News
G
Google Developers Blog
MyScale Blog
MyScale Blog
The Register - Security
The Register - Security
I
InfoQ
Blog — PlanetScale
Blog — PlanetScale
D
DataBreaches.Net
Microsoft Security Blog
Microsoft Security Blog
V
Visual Studio Blog
V2EX - 技术
V2EX - 技术
F
Fortinet All Blogs
博客园_首页
S
Secure Thoughts
GbyAI
GbyAI
S
Security Affairs
N
News | PayPal Newsroom
Forbes - Security
Forbes - Security
Recent Announcements
Recent Announcements
H
Hackread – Cybersecurity News, Data Breaches, AI and More
Security Archives - TechRepublic
Security Archives - TechRepublic
宝玉的分享
宝玉的分享
Hugging Face - Blog
Hugging Face - Blog
Hacker News - Newest:
Hacker News - Newest: "LLM"
H
Heimdal Security Blog
A
About on SuperTechFans
P
Proofpoint News Feed
H
Help Net Security
Application and Cybersecurity Blog
Application and Cybersecurity Blog
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
Y
Y Combinator Blog
L
LINUX DO - 最新话题
Apple Machine Learning Research
Apple Machine Learning Research
L
LangChain Blog
博客园 - 叶小钗
A
Arctic Wolf
Cisco Talos Blog
Cisco Talos Blog
T
The Exploit Database - CXSecurity.com
人人都是产品经理
人人都是产品经理
T
Threat Research - Cisco Blogs
N
News and Events Feed by Topic
Security Latest
Security Latest
The Hacker News
The Hacker News
T
Tor Project blog
O
OpenAI News
博客园 - 三生石上(FineUI控件)
PCI Perspectives
PCI Perspectives
量子位
大猫的无限游戏
大猫的无限游戏
Stack Overflow Blog
Stack Overflow Blog

博客园_首页

Linux实操--组管理、权限管理和定时任务 Java + EasyExcel 实现单个接口导出多个Excel Mem0 源码解析系列(二):提示词工程的深度剖析 Openclaw TaskFlow究竟是什么?和普通Skill技能有什么区别 博文阅读密码验证 - 博客园 嘉立创开源:应该是全网MicroPython教程最多的开发板 Hermes Agent 集成实践:从协议到生产 2026年AI编程工具横评:Cursor、Codex、Claude Code、Zed、Windsurf Java程序员必看的RAG入门教程 2026 AI效率神器:Superpowers + Claude Code 保姆级教程 本地大模型部署全攻略:从 0 到 1 玩转 Ollama 【从0到1构建一个ClaudeAgent】内存管理-上下文压缩 .NET 高级开发 | 设计、实现一个事件总线框架 电子小白入门之NE555 3. WorkBuddy:隐藏玩法,一键召唤专家,让 AI 以"专家身份"给你干活 和AI一起搞事情#3:Claude Teammate 游戏开发翻车实录 【OpenClaw】通过 Nanobot 源码学习架构---(7)Memory C# .NET 周刊|2026年3月3期 我在 Debian 11 上把 K8s 单机搭起来了,过程没你想的那么顺(/opt 目录版) 深度学习进阶(七)Data-efficient Image Transformer CLI+Skill搭建浏览器AI自动化框架,告别一切重复枯燥任务 告别Token账单无底洞:OpenClaw本地部署,重塑企业数据主权的唯一解 FastAPI+Vue:文件分片上传+秒传+断点续传,这坑我帮你踩平了! SBTI 爆火后,我做了个程序员版的 CBTI。。已开源 + 附开发过程 多模态检索开始进入工程期:用 Sentence Transformers 搭建可落地的 Multimodal RAG 100多行代码实现一个最简单的Agent(用ReAct) Claude Code 通关手册(八):推荐 5 个 Hooks,代码质量提升 3 倍 老板:“有人截图了!”。安全部门:“收到,马上查暗水印!” - why技术 技术之外,皆是人间 C#/.NET/.NET Core技术前沿周刊 | 第 69 期(2026年4.01-4.12) Snack JSONPath 项目架构分析 Claude Code Buddy 小析:一个非核心功能,如何体现产品的细节完成度 AI新时代下的图床管理方案-Cloudflare图床+MCP+Skills方案指南 化繁为简:顺丰速运App如何通过 HarmonyOS SDK实现专业级空间测量 从零实现富文本编辑器#13-React非编辑节点的内容渲染 AI开发-python-langchain框架(3-23-OpenAI Functions风格Tool Calling智能助手) .NET + AI 进阶实战:基于类的技能开发 - 打造可治理的 Agent 能力模块 【从0到1构建一个ClaudeAgent】规划与协调-技能 上周热点回顾(4.6-4.12) 电子小白的工具三件套:面包板、杜邦线、万能板 单表五亿数据的查询优化 | Mysql、StarRocks 2. WorkBuddy:从“我是谁”到“帮我干活” C# 如何减少代码运行时间:7 个实战技巧 基于HelixToolkit.SharpDX 渲染3D模型 - 笺上知微 从零开始的双臂具身VLA起源及现阶段发展综述 - SkyXZ 记对 xonsh shell 的使用, 脚本编写, 迁移及调优 - pluvium27 受够了Vibe Coding的失控?换个起点,让AI事半功倍 从开始配置漏洞环境到漏洞复现流程 - 難しい 关于10年工作经验的程序员对OpenClaw的实战经验分享以及看法 - 虚无境 Any metadata 的内存布局 C# .NET 周刊|2026年3月2期 - InCerry 我帮你测过了,测试圈排名第二的 Skill 依然很牛逼 Skill Discovery | 无监督技能发现的经典工作总结 - MoonOut PbootCMS 网站内容数量多导致访问慢?这些实用优化方案帮你提速! - 家兴网络技术工作室 上下文工程是什么?过时了么?一文讲明白! - 一枫说码 网站漏洞怎么发现并修复?一篇实用指南(附完整流程) - 家兴网络技术工作室 开了 TUN 模式还是直连?90% 的人都踩过这个坑 Github日报|2026年04月12日 - AI一族 AScript扩展多种脚本语言 - rockey627 AI 学习笔记:Agent 的记忆机制 你能被装进一个文件里吗?——7 万人把同事"蒸馏"成了 AI - 我没有三颗心脏 Claude Code 通关手册(七):给 AI 装上技能包——Skills 完全指南 - 暮色之狐 在浏览器中快速编辑代码:VSCode Web 集成实践 - Newbe36524 蒸馏自己 skill?基于 Deepseek 的蒸馏器,丐版蒸馏方式,简单便捷 - To_Carpe_Diem Spring AI Aliababa和AgentScope,哪个更好? - 苏三说技术 Etsy 把 1000 个 MySQL 分片迁进 Vitess:425TB 数据背后的真正问题不是性能,而是运维规模 MicroPython LVGL基础知识和概念:底层渲染与性能优化 - FreakStudio 数据库草图算法 Python 潮流周刊#146:CPython 引入 Rust 的进展 - 豌豆花下猫 最小生成树 - mofei1116 红日靶场七:从外网入口、容器逃逸到 AD 接管的完整利用链复盘 - YouDiscovered1t 分享四款开源且实用的 Kafka 管理工具 - 追逐时光者 vLLM 权重加载机制全解析:从挑战到理想架构 LCT 学习笔记 - ACehomoxue Avalonia UI 12.0.0 正式发布:架构演进和性能飞跃 - 张善友 当 AI Agent 把调用链拉长,延迟开始成为一门生意 conhost.exe 无法显示 U+2717 - 145a 太秀了,我把自己蒸馏成了 Skill!已开源 - 程序员鱼皮 ASP.NET Core 内存缓存实战:一篇搞懂该怎么配、怎么避坑 基于 Ghostty 带有分割标签页和为 Claude 编程设计的通知终端 - BugShare AI 焊死入口:教育的“操作系统级”重塑 - 郝hai 初级Java开发工程师使用sql脚本编写代码的过程是简单而且不糊涂 - CoderOilStation Claude Code通关手册(六):MCP协议完全指南 - 暮色之狐 边框灯光环绕动画特效实现指南 - Newbe36524 开源:子木蒸馏版的 SEO 审计工具 seo-audit-skill v1.0 我所理解的Python元模型 【从0到1构建一个ClaudeAgent】规划与协调-TodoWrite - 程序员Seven Claude 和 Codex 在审计 Skill 上性能差异探究 - ACai_sec AScript如何实现中文脚本引擎 - rockey627 【渗透测试】HTB Season10 Garfield 全过程wp - dynasty_chenzi Android 开发者为什么必须掌握 AI 能力?端侧视角下的技术变革 树状数组正确性证明 - AC-wyr 你的 AI 焦虑,可能比 AI 本身更危险——ATM 机没有消灭银行柜员,但恐慌消灭了你的判断力 - 我没有三颗心脏 一个拉胯的分库分表方案有多绝望?整个部门都在救火! - 冰河团队 动态规划入门必学之走方格问题 - Ofnoname PostgREST 与 PostgreSQL 角色权限配置全解析(生产级实践) - SheepDog1998 使用 UEFI 图形输出协议 GOP 在屏幕上显示图像的方法 - 阿源- Claude Code通关手册(五):组建你的AI专家团队,子代理系统 - 暮色之狐 一个程序员到架构师的催婚路之感悟(整整10年后的催婚相亲感悟) - MisterLip 用 Agent Skill 自动生成工作周报 - 赵康
大模型基础(四):强化学习入门-从斯金纳箱到大模型推理
wenha · 2026-05-04 · via 博客园_首页

2025年图灵奖颁给了强化学习的奠基人Richard Sutton和Andrew Barto。为什么强化学习如此重要?它如何从训练老鼠变成训练大模型?这篇文章带你一探究竟。


一、一个老鼠实验引发的革命

1.1 斯金纳箱:强化学习的源头

1930年代,心理学家斯金纳做了一个著名实验:

实验过程

  1. 把一只老鼠放进箱子
  2. 箱子里有一个杠杆
  3. 老鼠偶然按压杠杆 → 食物掉出来(奖励)
  4. 多次之后 → 老鼠主动频繁按压杠杆
    image

老鼠学会了什么?

"按杠杆 = 有吃的!"

这就是强化学习的核心思想通过尝试动作,根据获得的奖励调整行为

1.2 从老鼠到AI

半个世纪后,这个思想启发了AI研究者:

如果老鼠能通过"奖励"学会行为,机器能不能也这样学习?

1950年,图灵提出"通过奖惩机制训练机器"的设想。

1957年,Minsky正式提出"强化学习"概念。


二、什么是强化学习?

2.1 定义

强化学习(Reinforcement Learning, RL):让智能体通过与环境交互和"试错",学习最优决策策略以最大化长期累积奖励。

类比

强化学习就像训练宠物:它做对了给奖励(零食),做错了不给奖励。慢慢地,它就学会做正确的事情。

2.2 和其他机器学习方法有什么不同?

机器学习有三大范式:

类型 学习方式 数据特点 例子
有监督学习 从标注数据学习映射 有"标准答案" 图像分类
无监督学习 从数据中发现模式 无标签 聚类分析
强化学习 通过交互和奖励学习 数据来自交互过程 游戏AI

关键区别

  • 有监督学习:老师告诉你答案("这是猫")
  • 无监督学习:自己找规律("这些图片很像")
  • 强化学习:环境告诉你好不好("得分+10")

2.3 强化学习在学什么?

强化学习的目标:学一套"看情况做决定"的策略

把任何状态映射成最优动作,使得长期累计奖励最大。


三、强化学习的核心概念

3.1 五大要素

用一个例子来理解:训练一个游戏AI

概念 游戏中的例子 说明
智能体(Agent) 游戏AI 决策和行动的主体
环境(Environment) 游戏世界 智能体所处的外部系统
状态(State) 当前游戏画面 环境在某一时刻的描述
动作(Action) 移动、攻击、跳跃 智能体可执行的行为
奖励(Reward) 得分+10、被击中-5 环境对动作的反馈

3.2 策略和价值函数

策略(Policy):智能体选择动作的规则

  • "看到敌人就攻击"
  • "血量低就逃跑"

价值函数(Value Function):评估某个状态长期能获得多少奖励

  • "当前状态很好(血量高、装备好)"
  • "当前状态很差(血量低、被包围)"

3.3 交互循环

image

循环过程

  1. 智能体观察当前状态
  2. 根据策略选择动作
  3. 环境执行动作,返回新状态和奖励
  4. 智能体根据奖励调整策略
  5. 重复...

四、强化学习的高光时刻

4.1 AlphaGo:震惊世界

时间 事件
2015年10月 AlphaGo击败人类职业选手樊麾
2016年3月 AlphaGo 4:1击败李世石
2017年5月 AlphaGo Master 3:0击败柯洁

AlphaGo的秘密

  • 使用强化学习自我对弈
  • 通过不断试错学习最优策略
  • 最终超越人类顶尖棋手

4.2 DeepSeek-R1:大模型的突破

2025年1月,DeepSeek发布DeepSeek-R1

这是一个里程碑:用强化学习训练大模型的推理能力

关键创新

  • 自我创建和调整的奖励系统
  • 在Math-500等基准测试中媲美OpenAI o1
  • 以极低算力成本实现顶尖性能

为什么重要?

证明了强化学习可以让大模型学会"推理",而不只是"预测下一个字"。

4.3 2025年图灵奖

获奖者:Richard Sutton和Andrew Barto

Richard Sutton的获奖感言:

"强化学习的本质是从经验中学习,这是最自然的学习方式。"


五、经典算法:Q-Learning

5.1 什么是Q-Learning?

Q-Learning是强化学习最经典的入门算法,1989年由Watkins提出。

核心思想:建立一个"Q表",记录每个状态-动作组合的价值。

5.2 Q表是什么?

想象一个迷宫游戏:

状态 动作 Q 值 (价值) 备注
位置 A 向左 0.1
位置 A 向右 0.8 价值最高
位置 A 向上 0.2
位置 B 向左 0.9 这里向左好
位置 B 向右 -0.1

智能体决策

  • 在位置A → Q表显示向右价值最高 → 选择向右
  • 在位置B → Q表显示向左价值最高 → 选择向左

5.3 Q值怎么更新?

Q值更新公式(贝尔曼方程):

新Q值 = 当前Q值 + 学习率 × (奖励 + γ×最大未来Q值 - 当前Q值)

通俗解释

你以为这个动作值10分
实际做了,立刻得到5分,加上预计未来最多能得8分
所以实际应该值5+8=13分
需要更新你的认识:从10分调到接近13分

5.4 Q-Learning的局限

Q表方法有一个致命问题:状态太多时,Q表存不下

比如:

  • 围棋状态:约10^170种(天文数字)
  • 游戏画面:像素级别的状态

解决方法:用神经网络代替Q表 → DQN(深度Q网络)


六、进阶算法:PPO与DPO

6.1 PPO:稳定高效的强化学习

PPO(Proximal Policy Optimization)是OpenAI开发的算法,广泛应用于大模型训练。

核心思想:每次更新策略时,不要改变太大,保持稳定。

类比

学习新技能时,不要一次学太多,慢慢进步,避免"走火入魔"。

PPO的优点

  • 训练稳定
  • 样本效率高
  • 易于实现

6.2 DPO:更简单的替代方案

DPO(Direct Preference Optimization)是一种新方法,不需要训练奖励模型

传统RLHF流程

1. 训练奖励模型(RM)
2. 用奖励模型训练策略

DPO流程

直接用偏好数据优化策略,一步到位!

为什么DPO好?

  • 更简单(省去RM训练)
  • 更稳定(减少训练步骤)
  • 效果接近传统方法

七、强化学习在大模型中的应用

7.1 RLHF:让模型更"听话"

RLHF(Reinforcement Learning from Human Feedback)是大模型训练的关键环节。

流程

  1. 模型生成多个回答
  2. 人类排序这些回答
  3. 训练奖励模型学习人类偏好
  4. 用RL优化模型,使其生成人类喜欢的回答

效果

  • 减少有害内容
  • 提高回答质量
  • 使模型更符合人类价值观

7.2 训练推理能力:DeepSeek-R1的创新

DeepSeek-R1展示了RL的新用法:训练推理能力

传统大模型问题

  • 只会"预测下一个字"
  • 缺乏逻辑推理能力

DeepSeek-R1的解决方案

  • 设计推理奖励(如"思考步骤是否正确")
  • 用RL训练模型学会推理
  • 自我创建奖励系统

结果

  • 数学推理能力大幅提升
  • 代码生成质量提高
  • 接近o1模型的推理水平

7.3 AlphaGo到大模型:同样的思想

AlphaGo和DeepSeek-R1有什么共同点?

对比 AlphaGo DeepSeek-R1
任务 围棋 文本推理
环境 棋盘 语言任务
奖励 赢棋得分 推理正确性
学习方式 自我对弈 自我推理

共同核心:通过自我试错,学习最优策略!


八、强化学习的挑战与局限

8.1 训练不稳定

RL训练容易出现:

  • 崩溃(奖励突然下降)
  • 震荡(忽好忽坏)
  • 收敛困难

原因:奖励信号稀疏,策略更新复杂

8.2 样本效率低

RL需要大量试错才能学习。

AlphaGo自我对弈了数百万盘棋!

8.3 多样性降低

Andrej Karpathy指出:RL会使模型的"熵降低"。

解释:模型变得更保守、更确定,可能减少创造性。

8.4 RM准确性问题

如果奖励模型(RM)判断错误,模型就会学错。

类比:如果老师评分标准有问题,学生就会学歪。


九、给技术人员的启示

9.1 什么时候用RL?

场景 适合RL? 原因
游戏AI ✅ 适合 有明确奖励(得分)
大模型后训练 ✅ 适合 人类偏好作为奖励
简单分类任务 ❌ 不适合 有监督学习更高效
需要创造性的任务 ⚠️ 需谨慎 RL可能降低多样性

9.2 RLHF vs DPO:选哪个?

方案 优点 缺点 适用场景
RLHF 效果可能更好 流程复杂 大规模训练
DPO 简单高效 效果可能略差 快速迭代

9.3 自己能实践RL吗?

可以! 开源工具:

  • Stable Baselines3:经典RL算法库
  • DeepSpeed-Chat:大模型RLHF框架
  • TRL:HuggingFace的RL训练库

实践建议

  1. 从简单环境开始(如CartPole游戏)
  2. 理解Q-Learning原理
  3. 尝试PPO算法
  4. 再进入大模型领域

十、总结:强化学习的本质

Richard Sutton说:

"强化学习的本质是从经验中学习,这是最自然的学习方式。"

从斯金纳箱里的老鼠,到打败围棋世界冠军的AlphaGo,再到推理能力强大的DeepSeek-R1——强化学习展示了AI的一种核心学习范式:

不是被告知答案,而是通过尝试和反馈,自己学会怎么做。

这正是通向更智能AI的关键路径!


关键时间线

年份 事件
1930s 斯金纳箱实验
1950 图灵提出奖惩机制设想
1957 Minsky提出强化学习概念
1985 Sutton&Barto发展TD-Learning
1989 Watkins提出Q-Learning
2013 DeepMind提出DQN
2016 AlphaGo击败李世石
2022 ChatGPT使用RLHF
2025 DeepSeek-R1用RL训练推理
2025 Sutton&Barto获图灵奖

参考资料

  • 《Reinforcement Learning: An Introduction》- Sutton & Barto(经典教材)
  • AlphaGo论文:Silver et al., 2016
  • DeepSeek-R1技术报告:DeepSeek, 2025
  • InstructGPT论文:OpenAI, 2022
  • DPO论文:Rafailov et al., 2023

下一篇预告:RAG入门——让大模型学会开卷考试