惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

SecWiki News
SecWiki News
I
InfoQ
The Cloudflare Blog
人人都是产品经理
人人都是产品经理
博客园 - Franky
T
Tailwind CSS Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
量子位
博客园_首页
罗磊的独立博客
V
V2EX
李成银的技术随笔
大猫的无限游戏
大猫的无限游戏
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
T
True Tiger Recordings
Vercel News
Vercel News
Cyberwarzone
Cyberwarzone
Cisco Talos Blog
Cisco Talos Blog
F
Fox-IT International blog
D
Darknet – Hacking Tools, Hacker News & Cyber Security
M
Microsoft Research Blog - Microsoft Research
Know Your Adversary
Know Your Adversary
爱范儿
爱范儿
The Register - Security
The Register - Security
G
Google Developers Blog
The Hacker News
The Hacker News
Malwarebytes
Malwarebytes
S
Securelist
博客园 - 三生石上(FineUI控件)
Jina AI
Jina AI
T
Threat Research - Cisco Blogs
T
The Exploit Database - CXSecurity.com
S
SegmentFault 最新的问题
博客园 - 叶小钗
F
Fortinet All Blogs
Apple Machine Learning Research
Apple Machine Learning Research
宝玉的分享
宝玉的分享
博客园 - 聂微东
T
Threatpost
博客园 - 【当耐特】
D
Docker
P
Privacy & Cybersecurity Law Blog
www.infosecurity-magazine.com
www.infosecurity-magazine.com
G
GRAHAM CLULEY
V
Visual Studio Blog
C
Cisco Blogs
IT之家
IT之家
S
Security Archives - TechRepublic
Latest news
Latest news
阮一峰的网络日志
阮一峰的网络日志

一颗小树

小树的 2025 年终总结 MobX 核心机制探究 如何快速融入新团队 习惯养成的一点新实践 阿里七年,小树毕业了 小树学装修 - Mesh 组网 为什么忙起来就没有表达欲? 昆明风光好 和 deepseek 创作悬疑短篇 基于大模型搭建内容输出工作流 小树的 2024 年终总结 因地制宜 底层逻辑 不要轻易给自己贴标签 在天津随机漫步 如何通过售卖 Notion 模板获得收入 多维表格的边界 平淡日子里的闪光碎片 驾照加载中 河山大好出去走走 “我们”共同的烦恼 长周期的反馈指标 白河溯溪里收获的时代性 从竞争者到合作者 和客户面对面交流 奔波中的六月 内蒙古赤峰草原之行 我为什么不记账了 周末随想 从客户视角出发 我的职业价值观 扔掉心里的锚 骑行小记 用多维表格实现高质量需求交付 黄山:穿越云雾的山水诗篇 允许自己放空 春日老友记 Cubox 导出至 Obsidian 的工作流优化 让时间慢下来 Sam Altman 对提高个人生产力的建议 精读《GPT4 Technical Report》 AI 带我读论文 让世界更好一点点 改变学习方法 小树的 2024 年计划 小树的 2023 年终总结 小树的 2023 书单 周更的第 100 篇 改变阅读方式 宝贵的人生建议 小树的工具库 2023 读《重构》有感 仅需 10 分钟,用 GPTs 实现文章总结助手 高质量的需求交付 产品始于问题,而不是解决方案 如何更好地休息 最优解人生 租房和生活选择权 搬家整理小记 更适合我的时间管理方式:时间盒 做了几个月大模型产品,我学到了什么 与体重斗,其乐无穷 结构化 prompt = 数字员工? 持续创作的法门 如何降低知识焦虑 7 月思维碎片 N 倍生产力提升:我的 AI 助理 Indie Hacker,互联网打工人的下一个出路? 如何成就伟大事业 夏日碎片 小报编辑的自我修养 提升信噪比:过滤有价值信息的方法 干一行爱一行 提高生活的满足感 做好时间管理的几个建议 差旅杂记 如何快速适应自己不擅长的工作 Make Things Happen 消费的科学与艺术 推荐几本最近读的书 表达的前提是经历 Gradually then suddenly 投资没有最好,只有最适合 投资,是为了更好地生活 如何对待事务性任务 如何打造自己的核心竞争力 把手弄脏:细节藏在过程中 述职之后:见他人和见自己 给 flomo MEMO 做一次断舍离 个人知识管理的困境与改进 Astro 搭建个人博客 一颗小树 #49 投入真实生活 一颗小树 #48 过年杂记 一颗小树 #47 我的人生信念(2023) 一颗小树 #46 回本就卖 一颗小树 #45 规划和落地 小树的 2022 年终总结 一颗小树 #44 构建高质量信源 一颗小树 #43 我的 2022 书单 一颗小树 #42 阳了怎么办
AI 下半场
2025-10-19 · via 一颗小树

你好,我是小树。这是我为你写的第 137 封信。每期都会同步更新在微信公众号一颗小树

最近在看姚顺雨关于 AI 下半场的讨论,他提出了一个很有意思的观察:如果说 AI 的上半场是「解题」的狂欢,那么下半场的核心命题则会转变为「出题」。

这让我联想到自身,从小到大,都习惯了扮演「解题者」的角色。

在学校里解答老师划定的考题;进入职场后完成被分配的任务和指标。

我们往往很擅长在给定的框架内做到最好,却很少停下来思考:这些题目本身是否值得回答。

因此常常陷入「解题」的惯性,忙于追逐那些外部设定的目标,而忽略了去定义内心真正想解决的问题。

当 AI 变得越来越会考试,并在各种人类设计的基准测试中实现超越时,一个更根本的问题浮出水面:现在出的题是否真的有意义?

AI 的上半场:解题的狂欢与范式胜利

回顾 AI 发展的历程,在很长一段时间里,整个领域的核心游戏规则可以概括为:提出更强的算法或模型,然后在公认的基准测试(Benchmark)上取得更高的分数。

从 AlexNet 在 ImageNet 上的突破,到 AlphaGo 的惊世对局,再到 Transformer 架构的提出,每一次重大进展都伴随着一个新方法在某个特定“考场”上的胜利。

这个阶段的「胜利配方」有三个关键要素:算法(algorithm)、环境(environment)和先验(priors)。

起初,研究者们大多将精力聚焦于算法的创新,这也是学术界最热衷的方向。

随后,在深度强化学习(Deep RL)的探索中,大家逐渐意识到「环境」的重要性——一个好的算法在某个环境中的表现,往往难以直接迁移到另一个环境。

然而,真正的范式转移发生在 GPT 系列模型出现之后。人们发现,先验,尤其是通过「大规模语言预训练」获得的知识,可能才是拼图中缺失的最关键一块。

语言模型提供了一个足够强的先验,让 AI 具备了初步的推理能力,而推理,恰恰是实现泛化(generalization)的核心。

一个重要的洞察是:语言是人为了实现泛化而发明出来的工具。

人类可以轻易地将从一个游戏中获得的知识应用到新游戏中,正是因为我们能够思考和推理。而传统的 AI 模型,则需要在新任务上经过海量训练才能勉强适应,无法做到真正的举一反三。

这种以“刷分”为导向的模式虽然在特定任务上取得了巨大成功,但也暴露了其根本局限:模型在精心设计的“考场”里是优等生,但在真实、开放的世界里却举步维艰,这便引出了 AI 发展的困境——效用难题(Utility Problem),即 AI 为人来带来的实际进步,和其消耗的成本相比,是否合算。

AI 的下半场:转向出题,拥抱效用难题

当解题的方法变得越来越标准化,甚至工业化,AI 发展的游戏规则也随之改变。

这意味着,我们不再仅仅追求在现有基准上获得更高分数,而是要从根本上重新思考和设计我们的「评估体系」,让它更贴近真实世界的复杂需求。

这便直面了上半场留下的核心挑战——效用难题(Utility Problem)。

我们看到,AI 已经在国际奥赛上摘金夺银,在各种人类考试中超越大部分人,但真实世界的经济和生产力,似乎并没有因此发生质的飞跃。

这背后的原因可能很简单:我们给 AI 设定的「考场」,与真实世界的工作场景,存在着巨大的脱节。

这种脱节体现在两个方面。

首先,是评估方式的脱节

我们习惯于让评测自动运行,给模型一个任务,然后等待结果。

但在现实中,工作是高度交互的,需要与人持续沟通、反馈、调整。

我们的测试任务大多是独立同分布(i.i.d.)的,每个任务之间没有关联。

而人类工作恰恰相反,是一个连续积累经验、形成长期记忆的过程。

一个软件工程师解决同一个代码库的第二个问题,总会比第一个更得心应手。

其次,是任务定义的狭隘

我们倾向于选择那些有明确答案、容易评判的任务,比如数学题或编程竞赛。

然而,现实世界中更多的是开放性、创造性的问题,需要与人协作,甚至允许失败。

因此,下半场的真正挑战,不再是发明更巧妙的算法去「解题」,而是去设计和定义那些真正能衡量现实世界价值的「好题」。

这意味着我们要创造新的评估体系和任务环境,迫使我们跳出当前胜利配方的舒适区,去探索更有用的 AI 形式。

最难的是找任务。

一个好的任务,不仅能衡量价值,更能激发通用的、创新的方法。

比如 PPO(Proximal Policy Optimization,一种强化学习优化算法)一开始是为了解决一个特定问题;Transformer 一开始是为了解决一个特定任务;而 Attention(注意力机制)受机器翻译这个任务影响很深。

未来 Agent 的关键方向

根据文中的讲述,姚顺雨认为未来 Agent 的发展有三个关键方向:

首先是记忆(Memory)或上下文(Context)处理能力

当前模型最大的瓶颈并非推理或执行能力不足,而是「缺少一个完整的上下文」。

只有具备强大的记忆能力,Agent 才能在连续的任务中积累经验,实现真正的终身学习(Lifelong Learning),而不是每次都从零开始。

其次是内生奖励(Intrinsic Reward)

要让 Agent 从一个只能执行指令的工具,进化为能够主动探索、自我驱动的伙伴,就需要让它拥有自己的奖励机制。

这样它才能在没有明确外部指令的情况下,自主发现有价值的目标。

最后是多智能体(Multi-Agent)

现实世界中的复杂问题往往需要团队协作解决。

因此,让多个 Agent 形成组织结构,进行高效协作,将是个体智能走向组织智能的关键一步。

在探索这些方向的过程中,编程(Coding)之所以成为一个备受关注的场景,正是因为它提供了一个理想的实验环境。

在强化学习中,最难的部分莫过于设计奖励(Reward)。

而编程任务的优势在于,它的 Reward 是基于结果的、白盒的、基于规则的,而非模糊的人类偏好。这为训练和评估提供了清晰的标尺。

展望 Agent 与人的协作,文中划分了两种不同的模式。

一类是注重可靠性(Reliability)的任务,如客服,它要求极高的稳定性,在 100 次交互中 99 次都不能出错。我曾经做过的表格智能助手也是类似的任务,用户会对准确率的要求极高。

另一类则注重创造性(Creativity)的任务,如科学发现或撰写复杂程序,这类任务允许大量失败,只要有一次取得突破性成功,便价值巨大。

这两种模式对 Agent 的能力要求截然不同,也指明了未来发展的多元路径。

成为自己人生的出题人

原文中对 AI 的思考,最终也引向了我们自身。

这种从「解题」到「出题」的转变,本质上是从一种被动的「打工人思维」进化到主动的「创造者思维」。

「打工人思维」的核心是「适配」。

它的目标是在现有的、被清晰定义的价值链条中找到自己的位置,像一颗螺丝钉一样,为了更好地嵌入现有结构而努力。

这种思维在过去是有效的,但在 AI 时代,其风险正急剧增加。

与之相对,「创造者思维」则是由内而外的。

它不问「我适合做什么」,而是问「我想解决什么问题」或「我想创造什么」。这种思维的核心,是内心深处「渴望去实现什么」的强大内驱力。

这要求我们跳出对过往经验的依赖,从被动接受任务,转向主动探索和创造。

成为自己人生的「出题人」,意味着要建立自己的评价标准,定义自己真正想解决的问题。

这并不容易,它要求我们具备创造者的两个核心特质:

一是在实践中学习,遇到问题再针对性地寻找答案,而非为了学习而学习;

二是必须对不确定性有高度的容忍度,接受过程中的失败和迷茫。

但就像 AI 的发展一样,真正的突破,往往不是来自于对旧问题的更优解,而是来自于对新问题的勇敢定义。

找到我们自己的「下半场」,主动为自己「出题」,或许才是通往更广阔天地的开始。

谢谢你的关注,我们下期再见。👋🏻

参考内容


往期推荐

你也可以在这里找到我:即刻Twitter、微信公众号一颗小树

如果你觉得这篇文章对你有用,欢迎分享给更多好友。