惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

GbyAI
GbyAI
博客园_首页
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
阮一峰的网络日志
阮一峰的网络日志
酷 壳 – CoolShell
酷 壳 – CoolShell
博客园 - 司徒正美
V
V2EX
Cloudbric
Cloudbric
Hugging Face - Blog
Hugging Face - Blog
腾讯CDC
量子位
博客园 - 三生石上(FineUI控件)
博客园 - 叶小钗
K
Kaspersky official blog
博客园 - 【当耐特】
T
Tenable Blog
L
Lohrmann on Cybersecurity
The Cloudflare Blog
S
Schneier on Security
A
Arctic Wolf
Latest news
Latest news
C
Cyber Attacks, Cyber Crime and Cyber Security
罗磊的独立博客
T
The Exploit Database - CXSecurity.com
Cisco Talos Blog
Cisco Talos Blog
小众软件
小众软件
P
Privacy & Cybersecurity Law Blog
WordPress大学
WordPress大学
Simon Willison's Weblog
Simon Willison's Weblog
雷峰网
雷峰网
NISL@THU
NISL@THU
人人都是产品经理
人人都是产品经理
月光博客
月光博客
J
Java Code Geeks
V
Visual Studio Blog
S
Security Affairs
博客园 - Franky
T
Tailwind CSS Blog
Apple Machine Learning Research
Apple Machine Learning Research
H
Heimdal Security Blog
有赞技术团队
有赞技术团队
V2EX - 技术
V2EX - 技术
AWS News Blog
AWS News Blog
G
GRAHAM CLULEY
T
Troy Hunt's Blog
SecWiki News
SecWiki News
Spread Privacy
Spread Privacy
宝玉的分享
宝玉的分享
www.infosecurity-magazine.com
www.infosecurity-magazine.com
博客园 - 聂微东

少数派

派早报:Google 发布 Fitbit Air 等 - 少数派 「新人报到」確認需求,再開始 - 少数派 从 SOLO 独立开发者社区,我看到了越来越多开发者开始做自己的产品 - 少数派 我怎么管理那些"不常做,但总会忘"的生活事项 - 少数派 人形机器人量产元年,数据才是具身智能的“生死线” - 少数派 BuhoLaunchpad 高度还原 Mac 启动台:开发历程与思考 - 少数派 五年陪伴依然不舍,DIY 换壳后让罗技 MX Master 3 继续服役 - 少数派 新玩意 240|少数派的编辑们最近买了啥? - 少数派 一日一技|为什么你应该关闭 iOS 的键盘声音 - 少数派 我做了个插件和 Skills,一键提取任何网站的设计规范 Design.md - 少数派 住在三四线城市的你,该开始录播客了 - 少数派 甘南秘境,大白高国 - 少数派 AI的审美:谁让把我变成川内倫子 - 少数派 返工怎能不烦恼,打工人片单总有一部是你的「嘴替」 - 少数派 为了让「上厕所」更健康,我做了一个小工具 - 少数派 AI + Skill,能够让生成的文章去除 AI 味吗? - 少数派 新玩意|韶音OpenDots ONE 耳夹式耳机 - 少数派 《美满》| 在每一个春天的晚上相爱(362) - 少数派 新玩意|优篮子 PS01 MagSnap 磁吸支架 - 少数派 自我整合手记 | 我开始早睡了:用稳定规则,为自由托底 - 少数派 用龙虾(OpenClaw)两个多月,我最深的12个体会 - 少数派 听歌时间到,12 张你可能错过的 2025 华语乐坛好专辑 - 少数派 承诺能追吗 - 少数派 macOS 26启动台没了? 我做了个不一样的App启动器 - Keboard - 少数派 《四海为家的人》| INTJ对话INTJ(361) - 少数派 你发过的那些黑历史,是时候一次清干净了 - 少数派 新玩意:安安静静玩,越玩越专注:计客密码机 - 少数派 iPad 用户首次体验 Android 平板:vivo Pad6 Pro - 少数派 数据逻辑强 - 少数派 极北行+ | 一路向北,探访日本至北之地 | 001 - 少数派 万字剖析:千问App深度体验报告(2026) - 少数派 在2026年,如何真正防止别人抄袭你的作品 - 少数派 怎么用 50 块搭个 AI 语音助手?我踩了 3 天坑 - 少数派 YeeroAI:让 AI 对话真正成为知识管理的一部分 - 少数派 爬泰山 - 少数派 「旅图显影」 App 更新:这次,我们补上了一点「手感」 - 少数派 假期出门太折磨?我的 23 条经验帮你规划惬意旅行 - 少数派 工作流会变吗 - 少数派 Claude Opus 4.6 怎么用最省钱?我测了 5 种方案 - 少数派 GPT Image 2 让图文并茂不再稀罕 - 少数派 用户侧出发——什么是AI,我要不要学习? - 少数派 找片、转存、整理、播放一条龙!让你的付费网盘值回票价 - 少数派 欢迎试用!日课一问2.0插件 - 少数派 自己做的MDeditor,原本想购买 Typora 试了两次支付不成功,干脆自己做一个 - 少数派 vibe coding了一个 3MB 的小工具,让 ~/Downloads 彻底告别混乱 - 少数派 因为受不了 Mac 的风扇策略,我做了一个风扇控制工具 - 少数派 别只怪模型 - 少数派 Warp 终端的 AI 功能怎么用?我测了一周的体验 - 少数派 AI 写代码老是出 bug?这 5 个配置我后悔没早知道 - 少数派 「新玩意」苹果出相机可能就这样:Sigma BF + 45mm F2.8 DG Contemporary - 少数派 一个面向2030年的AI操作系统是什么样子的:浅谈cola这款有灵魂的Agent - 少数派 别只看写代码 - 少数派 每天解决10个问题,还是一口气攻坚解决400个? - 少数派 AI 交易机器人怎么搭?我用 Claude 跑了一周实盘 - 少数派 Maptoposter Online:把你爱的城市画成艺术海报 - 少数派 Function Calling 怎么用?我测了 3 个模型发现差距真大 - 少数派 Legend Talk:我做了个 AI 圆桌,让 160 位思想家围着你的问题转 - 少数派 如何找到自己的蓝方?在小县城寻找压力测试 - 少数派 语音输入与软件接口|2026年聊AI时,我们都聊些什么(上) - 少数派 混动已经卖爆,纯电又来补刀——钛7闪充版简直“不讲武德” - 少数派 本月玩什么|朋友收藏、识质存在、沙罗周期 - 少数派 为什么要每天坚持输出? - 少数派 Claude API 挂了好几个小时,你的项目有备用方案吗? - 少数派 Function Calling 没你想的复杂——我用它做了个有点用的工具 - 少数派 登录系统立即播放视频或者图片音乐的软件 - 少数派 我为什么创建 FlipHTML5 下载工具 - 少数派 残局没电?多品牌外设电量统一管理软件EasyBluetooth已支持RTSS游戏内显示以及AIDA64 - 少数派 前往通义路的路 - 少数派 太好看了,媲美Sun的个人导航页,NAS部署星云门户 - 少数派 乌黑嘴唇“一键检测”上线了 - 少数派 派早报:Claude AI 接入多个创意软件生态、FILCO 生产方接手品牌等 - 少数派 【更新】BearCLI、Claude 连接器与 MCP 服务器 - 少数派 记了上千条流水,还是看不懂财务?我做了一个让 AI 读懂账本的工作台 - 少数派 MINI R56 升级原厂 Sport 模式 - 少数派 新玩意 | 一棵柠檬树(仿真版) - 少数派 Momenta的“物理AI”野望,需迈过“含摩量”这道关 - 少数派 网页直接投屏控制手机!NAS一键部署PandaScrcpy,流畅丝滑可远程。 - 少数派 众测|邀你一同探索随身 AI 硬件入口 YoooClaw C·ONE - 少数派 2050大会:分享时间是真诚 参会记 - 少数派 iPad 赋能电影创作:国内首部宣纸手绘长片《燃比娃》的幕后故事 - 少数派 AI的审美:我用 8 个大模型给 100 张旅行照片打分 - 少数派 普通人如何破圈?去参加一个本地协会 - 少数派 把极空间的图标全换了,主题DIY全攻略打造你的专属NAS桌面 - 少数派 电子便签墙,帮你实现便签自由 - 少数派 我如何用三个 CLI 工具取代文档创建需求 - 少数派 原来真的有人可以玩一辈子 - 少数派 社区速递 139 | 派友热议三月买了啥、复古单反尼康 Df 体验 - 少数派 06 作品的赏析与评价 - 少数派 TDS REVIEW|索尼 WF-1000XM6 降噪真无线耳机体验 - 少数派 35.98万起售的第二代腾势D9,我看重的不是堆料,而是不凑合 - 少数派 鼠须管 Squirrel 皮肤配置指北 - 少数派 从watch ultra2换到redmi watch6 - 少数派 派早报:阿里巴巴发布视频生成模型 HappyHorse 1.0 等 - 少数派 别迷信1M - 少数派 家人们天塌了!网盘“大封杀”,多个渠道多条路,NAS部署PanHub - 少数派 AI与人勾心斗角!NAS一键部署AI狼人杀,假日休闲必备。 - 少数派 电商必备!Comfyui工作流批量生图插件,一次生成12张!支持Nano banana pro模型 - 少数派 Comfyui工作流配置Gpt-image-2模型教程,0.03/张 - 少数派 OpenClaw第三方APi怎么配置?可使用Gpt-image-2模型 - 少数派 会员社区话题精选 Ep. 103 - 少数派
非技术人 10 分钟读懂 Deepseek R1|天才模型养成与 AI 超越人类的破晓时刻 - 少数派
2025-02-11 · via 少数派

DeepSeek 在这个春节火到没边。

不仅在公众号、小红书、抖音疯狂刷屏,就连过年餐桌上七大姑八大姨都会来唠上两句:“你知道「滴噗系可」(DeepSeek)吗”。

抛开看热闹的浮躁气,我想从一个非技术人的角度,分享近期对 DeepSeek 的研究总结,主要围绕以下话题:

  • 天才养成记:DeepSeek R1 为什么如此聪明?
  • “填鸭”之困:传统大模型训练的瓶颈?
  • 自学成才:DeepSeek R1 的破局之道?
  • 纯强化学习:再次带来 AI 超越人类的希望?

去除无用“高精尖”知识,讲透技术黑话,力求帮助每个不太懂技术的读者,深度理解 Deepseek R1,更好开展自己的工作与生活。


就我观察而言,大多数人讨论的 DeepSeek ,基本指的是它的深度思考版本——DeepSeek R1。

DeepSeek R1 不同于先前的普通模型(如ChatGPT-4、Claude 3.5 sonnet、豆包、通义等),它与 OpenAI 现在最先进的模型 o1、o3 一样,同属于一条技术路线:基于强化学习 RL 的 推理(Reasoning)模型

其标志性表现就是,在回答用户问题前,R1 会先进行“自问自答”式的推理思考,凭此提升最终回答的质量。

这种“自问自答”,并非简单的自言自语,而是 AI 在模拟人类的深度思考

从用户初始问题“先有鸡还是先有蛋”出发,AI 唤醒解决该问题所需的推理逻辑与知识,对问题进行多步推导,为最终回答提供更加完备的思考准备。

用户初始指令:先有鸡还是先有蛋?
<think>
推理 1 - 问题领域分析:经典哲学、科学难题
推理 2 - 知识回忆:哲学-因果循环;科学-进化论、生物学发展
推理 3 - 用户意图分析:用户可能是在寻找明确答案,但这个问题没有绝对答案,所以需要解释不同观点
推理 4 - 结合用户场景:学生作业 → 更加结构化回答;普通用户 → 简洁易懂的解释
……
</think>
最终回答:根据以上信息,综合生成结果

这种能力,并非凭空而来。

如果把 AI 比作人类,那么 DeepSeek R1 的“聪明”,源于其背后独特的“教育方式”。

——在许多其他的 AI 模型还在接受“填鸭式教育”时,DeepSeek R1 已经率先进入了“自学成才”的新阶段


📚 “填鸭教育”之困:人类的局限,AI 的上限

当前 AI 大模型的训练分为两个阶段:“预训练”、“后训练”。

“预训练”阶段,主要依赖于海量的“预训练”数据,一股脑地把各种知识“填鸭”给 AI。

就像学龄前的孩子背诵唐诗三百首。

虽然能“鹦鹉学舌”般地在“鹅,鹅,鹅 ”后接上“曲项向天歌”,却不理解诗词的格律、意境,更不懂如何运用这些知识去创作。

你问他“鹅是什么”,他可能只会机械地接龙“曲项向天歌”,驴唇不对马嘴,无法和你有效回应。

这便是大模型“预训练”的实质与局限:

它赋予了 AI 海量的知识基础,却无法让 AI 真正理解和运用这些知识,只能基于背过知识的统计概率进行“续写”。

更关键的在于,此时的 AI 还没有学会如何与人类进行有效的对话,不知道如何理解你的问题,也不知道如何组织语言来回答你。

它就像一个“知识巨人,对话侏儒”,空有全世界的知识,却不知如何表达。(是的,未经“后训练”的基础模型,往往用户指令遵循性差,生成内容的格式混乱、难以阅读、逻辑断裂,也无法和人进行有效对话。)

而在“后训练”阶段,则是对 AI 的输出方式、指令遵循、推理等特定任务进行“特训”

例如,让 AI 学会与人类对话,生成人类易于阅读的长句,或者学会输出更加合理的推理过程。

此前,“后训练”主要采用监督微调(SFT)或基于人类反馈的强化学习(RLHF)等方法。

  • 监督微调(SFT):用特定数据集对模型进行“填鸭式”训练,使得模型参数得到微小的特定调整
  • 基于人类反馈的强化学习(RLHF):人类训练者会对 AI 模型的多个输出进行评分或排序,训练模型理解什么是“好的回答”。

可见,无论是 SFT 还是 RLHF,都难以摆脱“填鸭式教育”的影子

它们或许能让 AI “鹦鹉学舌”,却无法让 AI “融会贯通”。人类标注者的认知天花板,也成为了 AI 能力提升的瓶颈


💡 自学成才:纯强化学习再次带来 AI 超越人类的希望

DeepSeek R1 则引入了纯强化学习(RL),不依赖大量的人类标注数据,而是让 AI 通过自我探索和试错来学习:

DeepSeek R1 在“冷启动”阶段,仅通过少量(数千条)人工精选的思维链数据进行初步引导,建立起符合人类阅读习惯的推理表达范式。

随后,便主要依靠强化学习,在奖励系统的反馈下(只对结果准确率与回答格式进行奖励),自主探索推理策略,不断提升回答的准确性,实现自我进化

准确率奖励:用于评估 AI 提供的最终答案是否正确,以此为 AI 提供答案准确度的反馈。

格式奖励:强制结构化输出,让模型把思考过程置于<think></think> 标签之间,以便人类观察模型的推理过程。

正如 Alpha Zero 只训练了三天,就以 100 比 0 的战绩完胜 Alpha Go Lee(战胜李世石的版本)。

Alpha Go(老):监督学习 + 强化学习。学习人类棋谱,也更接近人类职业棋手的风格,继承了人类的局限。

Alpha Zero(新):完全摒弃人类数据的纯强化学习。从零开始自我博弈,不受限于人类经验,具有创造性的下棋风格。

大模型 AI 在纯强化学习(RL)下同样也展现出了超出人类研究员想象的成长潜力

“我们只需要简单的为其提供正确的激励措施,它就会自主开发高级的问题解决策略,RL 有可能解锁新的人工智能水平。”

*只不过 Alpha Zero 的强化学习更加专精棋类。而 DeepSeek R1 在训练中,更注重学习推理的底层策略,培养通用推理能力,使其能够实现跨领域的知识迁移运用和推理解答。


👉 更有趣的是,DeepSeek 还有一个更加聪明的 R1-zero 实验版本

这个版本甚至没有进行任何的初始引导,而是采用了完全从零开始的强化学习。

实验表明,无需任何人类的监督训练,R1-zero 自然而然地学会了用更多的思考步骤来解决推理任务,还学会了在推理过程中反思先前的推理步骤,探索解决问题的替代方法。

——没错,AI 在纯强化学习中,自发涌现出了更强的推理能力与顿悟时刻:

*但因为没有微调,R1-zero 的输出内容可读性差、语言混合,且风险不可控。所以我们见到的才是经过符合人类阅读偏好的冷启动与微调过的 R1 版本,确保 AI 生成内容的稳定、安全、道德、无害。

纯强化学习,在 Alpha Zero 完胜所有人类棋手之后,再次点燃了 AI 全面超越人类的希望。

当 AI 挣脱人类经验的束缚,真正的智能革命或许才刚刚拉开序幕。


💬 附:DeepSeek R1 完整训练过程

因文章定位与行文节奏设计,上文仅对影响 R1 涌现关键智能的前两个训练步骤进行了讲解(一般非技术人了解到这一步也够了)。

更加完善的训练说明,可直接阅读官方论文:

DeepSeek-AI《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://arxiv.org/html/2501.12948


📑 Ref:

  • DeepSeek-AI《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://arxiv.org/html/2501.12948
  • 碎瓜-波斯兔子《Deepseek R1可能找到了超越人类的办法》https://mp.weixin.qq.com/s/YgRgDw8ndSHJwcPNMqWZNQ
  • 大聪明-赛博禅心《DeepSeek R1 是怎么训练的?》https://mp.weixin.qq.com/s/Wuz0H9jmZYV1jM1Y-twTlA
  • 老刘说 NLP 《可视化角度具象化理解DeepSeek-R1类推理大模型的习得进程》 https://mp.weixin.qq.com/s/ytKTGTgU2T7jSNrBghX1cA
  • Tianzhe Chu et al.《SFT 记忆,RL 泛化:基础模型训练后的比较研究》https://arxiv.org/html/2501.17161
  • Metaso 长思考对话《RL 和 SFT 在后训练中的区别》https://metaso.cn/s/WGdOwPC