惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Microsoft Azure Blog
Microsoft Azure Blog
S
Securelist
V
Vulnerabilities – Threatpost
C
Cyber Attacks, Cyber Crime and Cyber Security
Schneier on Security
Schneier on Security
Cyberwarzone
Cyberwarzone
Simon Willison's Weblog
Simon Willison's Weblog
Hacker News - Newest:
Hacker News - Newest: "LLM"
P
Palo Alto Networks Blog
T
Troy Hunt's Blog
SecWiki News
SecWiki News
Security Archives - TechRepublic
Security Archives - TechRepublic
T
The Blog of Author Tim Ferriss
Project Zero
Project Zero
Microsoft Security Blog
Microsoft Security Blog
The Register - Security
The Register - Security
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
J
Java Code Geeks
F
Full Disclosure
阮一峰的网络日志
阮一峰的网络日志
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Attack and Defense Labs
Attack and Defense Labs
Know Your Adversary
Know Your Adversary
WordPress大学
WordPress大学
PCI Perspectives
PCI Perspectives
N
News | PayPal Newsroom
The Last Watchdog
The Last Watchdog
酷 壳 – CoolShell
酷 壳 – CoolShell
P
Privacy & Cybersecurity Law Blog
P
Proofpoint News Feed
V
Visual Studio Blog
C
CERT Recently Published Vulnerability Notes
H
Help Net Security
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
云风的 BLOG
云风的 BLOG
月光博客
月光博客
T
The Exploit Database - CXSecurity.com
I
InfoQ
大猫的无限游戏
大猫的无限游戏
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
U
Unit 42
腾讯CDC
小众软件
小众软件
V2EX - 技术
V2EX - 技术
罗磊的独立博客
Cloudbric
Cloudbric
Recorded Future
Recorded Future
IT之家
IT之家
Google DeepMind News
Google DeepMind News
C
CXSECURITY Database RSS Feed - CXSecurity.com

卢昌海个人主页

台湾掠影之新竹篇 (下) English Posts 希尔伯特谈《几何基础》 The Blacklist 观后 English Posts 微言小义 (2026.05 - 2026.06) 《飞越四分之三的时区》自序 微言小义 (2026.03 - 2026.04) Some Random Bits Some Random Bits (一段英文视频) English Posts 微言小义 (2026.03 - 2026.04) 台湾高铁:从新竹到高雄 东京掠影 (五) 微言小义 (2026.01 - 2026.02) 高雄捷運環狀輕軌 台湾掠影之新竹篇 (上) 《几何原本》里的数 微言小义 (2025.11 - 2025.12) English Posts 二〇二五年台湾散记 (附广州二日) 李政道杨振宁的诺贝尔奖提名档案 占星术是一种早期科学吗? 闲话毛边书 西班牙掠影之交通篇 “亲和数”闲读记 English Posts A String Theorist's Memoir 二〇二五年西班牙散记 Malmö 掠影 电子书列表及购买方法 微言小义 (2025.06) 香港掠影之二〇二四 (下) 香港掠影之二〇二四 (上) 微言小义 (2025.05) 一段杭州话视频
AI 时代的数学研究
- 卢昌海 - · 2026-06-28 · via 卢昌海个人主页

喜欢本人文字的读者
>>> 欢迎选购本站电子书 <<<

AI 时代的数学研究

一. AI 时代的降临

最近几年, AI (人工智能) 几乎成了永不停歇的热门话题。

之前的 AI 也屡屡有过高光时刻: 比如 IBM 的 AI 系统 Deep Blue (深蓝) 于 1997 年击败国际象棋世界冠军卡斯帕罗夫 (Garry Kasparov), Watson (华生) 于 2011 年夺得电视智力竞赛 Jeopardy! 的冠军; 比如深思 (DeepMind) 公司的 AI 系统 AlphaGo (阿尔法围棋) 于 2016 年击败人类顶尖围棋手李世石, AlphaFold (阿尔法折叠) 自 2020 年起在研究蛋白质三维结构的效率上屡创新高, 远远超越了人类研究者……

但就影响的深远而言, 那些都远远及不上 2022 年以 ChatGPT 为代表的基于所谓大语言模型 (Large Language Model ——简称 LLM) 的新兴 AI 系统的崛起。 跟这种新兴 AI 系统相比, 之前的 AI 系统虽也攻克了一个个曾经专属于人类的智力堡垒, 用途大都局限于规则相对森严的专门领域, 普罗大众则多怀着吃瓜般的轻松, 旁观事态之发展; 但以 ChatGPT 为代表的新兴 AI 系统却是在规则松散, 用途却极为广泛的语言领域惊艳登场, 之后更是以极快的速度成片突入了几乎所有的人类智力领地, 使长期只作为抽象概念存在的所谓通用人工智能 (Artificial General Intelligence ——简称 AGI) 忽然变得近在咫尺。 相应地, 大批吃瓜群众则猝不及防地遭遇了 AI 兵临城下的职业危机, 由观众变成演员, 被迫出演了 AI 的对手戏——至于剧本, 想想卡斯帕罗夫和李世石就知道了。

在迄今为止的 AI 发展史上, 没有任何时期比最近这几年更能凸显 AI 时代的降临, 真正的 “山雨欲来风满楼”。

伴随着这种发展, 有关 AI 的书也如雨后春笋般涌现出来。 然而人类作者了解 AI 的速度, 往往已赶不上 AI 的发展速度, 使许多书的问世过程直接变成落伍过程, 几乎一出版就已被前沿抛离。 这种情况下, 反倒是 “碎片化” 的微博和博客显出了独特优势——因为更实时地记录下了人类面对 AI 时代的思考。

二. AI 进军数学世界

本文就以几位数学家的这种 “碎片化” 思考为线索, 来议论一下 AI 时代的一个小小侧面: 数学研究。

ChatGPT 问世之初, 其数学能力是相对引人注目的短板。 从机制上讲, 这并不奇怪, 因为作为其核心的大语言模型解决问题的基本思路, 是从基于人类数据的反复训练中推衍出最契合人类模式的答案。 因此, 大语言模型回答一个问题时, 它实际回答的是: 对这个问题, 最契合人类模式的答案是什么? 由于这一特点, 大语言模型没有回答不了的问题——哪怕宣称 “不知道”, 也只是因为它们 “知道” 最契合人类模式的答案是 “不知道”。 大语言模型所属的人工智能有一个 “学名” 叫作生成式人工智能 (Generative AI ——简称 GenAI), 它很贴切地道出了大语言模型只是 “生成” 答案, 而非进行创造或思考。 大语言模型的这一特点 “生成” 了无数似是而非的东西, 或所谓 “一本正经地胡说八道”, 被称为 AI 泔水 (AI slop)。 在语言、 艺术、 社会、 历史之类的领域里, 它们常被领域固有的模糊性所遮盖, 但在严密而精确的数学领域里, 则不易遁形——故而成为短板。

但这个短板在短短一两年间就得到了大幅消解。 许多人注意到, 随着大语言模型的演进, 它的数学能力似乎成为了一种超越原初设计而自发产生的所谓 “涌现行为” (emergent behavior)。 这种在自然界很多复杂现象——包括生命——之中扮演着微妙角色的 “涌现行为” 具体是如何产生的, 目前并不清楚, 但作为表象的 AI 数学能力的突飞猛进, 则已是不争的事实。

在这样的背景之下, 一些勇于弄潮的数学家开始率先在数学研究中运用 AI, 并取得了不容小觑的成果。 比如从著名匈牙利数学家埃尔德什 (Paul Erdős) 的研究中衍生出的所谓埃尔德什问题集 (Erdős Problems), 最近就成为了在数学研究中运用 AI 的 “练兵场”, 成果则是: 在这一问题集所包含的上千个数学问题 (其中半数以上尚未解决) 中, 以往几乎任何时候都只有一两个处于活跃状态——即被标记为取得显著进展等候核验, 随着 AI 的运用, 这数目一举跃升到了二十左右。 这其中, 最引起轰动的是编号为 1196 的埃尔德什问题。 这个数十年悬而未决的问题于今年四月份被 GPT-5.4 Pro 只花费短短 80 分钟就给出了解决方法, 并通过了核验[注一]。 研究该问题已有数年之久的美国斯坦福大学的数学家利希特曼 (Jared Lichtman) 于 4 月 15 日发微博表示[注二], AI 的解决方法新颖而聪明, 称得上是 “来自天书的证明” (Proofs from The Book) ——那是埃尔德什本人关于优美数学证明的最高标准。

在数学研究中运用 AI 的这些新近例子跟早期的计算机辅助研究有一个巨大差异, 那就是早期的计算机辅助研究往往是用计算机做一些跟人类数学家互补的事情——比如人类数学家做不了的复杂计算或核验, 本质上是人类动脑子, 计算机卖力气, 分工明确、 主次鲜明。 一个最典型的例子是完成于 1976 年的四色定理 (four color theorem) 的证明, 那是在人类数学家将证明归结为对数以千计的复杂地图的核验之后, 用计算机完成了核验。 与之相比, 在数学研究中运用 AI 的新近例子则完全模糊了人类与计算机的界限, AI 往往会直接进入传统上属于人类数学家的领地, 甚至给出人类数学家没能想到的思路。 AI 涌现出的这种能力及其所代表的趋势是颇让一些人不安的。

三. 陶哲轩的比喻

在数学研究中率先运用 AI 的那些弄潮儿之中, 最积极最著名的一位也许是 2006 年菲尔兹奖 (Fields Medal) 得主陶哲轩 (Terence Tao)。

陶哲轩不仅对在数学研究中运用 AI 持相对积极的态度, 而且对 AI 时代的数学研究进行了许多思考。 在 3 月 18 日的一条微博中[注三], 他将 AI 在数学中的运用类比为汽车对出行的作用。 他认为, 正如汽车的兴起只是拓展了城市规模及出行范围, 而不等于人们不再步行, AI 在数学中的运用也将只会拓展数学的疆域, 而并不意味着数学家将无事可做; 他还认为, 正如一个好的城市规范可以让城市既拥有汽车又适合步行, 我们也可以通过某种规划使 AI 与数学家和谐共存。

陶哲轩的上述类比对 AI 时代的数学研究是持乐观态度的, 甚至很有几分浪漫憧憬——毕竟, 谁不想生活在一个既拥有汽车又适合步行的城市里呢? 不过细究起来, 在数学研究中运用 AI 跟汽车对出行的作用似乎有一个不适用于上述类比的本质差异。 以跟多数人关系最密切的家与办公室之间的日常出行为例, 那样的出行只是生活或工作的 “前奏”, 而且是一个不得不重复的 “前奏”, 生活或工作的主体是在抵达目的地之后才展开的, 由汽车完成那样的出行带来的只是便利, 而并不取代生活或工作的主体; 但对数学来说, 任何东西一经证明就永远成立, 不存在不得不重复的 “前奏”, 而若是尚未证明的东西, 则哪怕是对应于 “家与办公室之间的日常出行” 那样的简单东西, 其证明也依然是对数学实实在在的贡献, 是数学工作的一部分。 由 AI 帮助完成就等于取代了数学家的这部分工作, 虽然并不意味着他们将无事可做, 但数学家跟 AI 的关系显然远比行人与汽车的关系更有竞争意味。

四. 高尔斯的例子

关于这种竞争, 1998 年菲尔兹奖得主高尔斯 (Timothy Gowers) 在 5 月 8 日的一篇博客文字里[注四], 给出了一个很好的例子。

高尔斯说他最近用 GPT-5.5 Pro, 只花费不到两小时的运算时间, 就对一项新近的组合学研究作出了改进[注五]。 这项改进——高尔斯表示——虽算不上一流工作, 却足可作为数学博士论文的一个章节。 高尔斯由此感慨道, 为博士生提供既能产出原创贡献又难度适中的课题本就不易, 在 AI 时代变得更难了——因为一旦 AI 能解决一个课题, 那课题就不再适合博士生了。 对数学作出原创贡献的门槛原本是相对于人类数学家的, 如今被提升为了超越 AI。 高尔斯针对这种 AI 带来的门槛提升的唯一安慰是: 组合学问题也许是最能展示大语言模型优势的——言下之意, 这种门槛提升对组合学研究最为显著, 其他数学分支则或许尚有缓冲时间[注六]。 不过, AI 的发展如此之快, 任何安慰都很可能是极其暂时的, 高尔斯自己也承认, 对如今刚刚开始念博士的学生来说, 当他们毕业时, 从事数学研究的含义或许已变得面目全非了 (“what it means to undertake research in mathematics will have changed out of all recognition”)。

从某种意义上讲, 高尔斯的博客文字跟陶哲轩的前述微博有一定的互补性: AI 在数学中的运用对陶哲轩这种层级的数学家来说也许不算什么, 甚至也许只相当于替他证明了一系列引理, 让他有像乘汽车那样的舒适, 但对入门层级的数学家及正在入门途中的博士生来说, 带来的则也许只是激烈乃至残酷的竞争。

而如果将眼光放远些, 则即便对陶哲轩这种层级的数学家来说, 乘汽车那样的舒适能持续多久? 会不会逐渐——甚至很快——步上卡斯帕罗夫和李世石的后尘? 恐怕也并非杞人忧天的问题。 比之更进一步的 AI 时代的数学研究将会走向何方? 应该走向何方? 则更是所有数学家共同关注的问题。 陶哲轩在四五月份的若干微博及同期的讲演中, 针对后者作出了一些猜测和提议——在一定程度上可视为是对先前提到的通过某种规划使 AI 与数学家和谐共存的展开说明。

陶哲轩认为, 数学研究长期以来处于一种证明稀缺 (proof scarcity) 状态, 相应地, 为数学问题提供证明成为了数学研究的核心目标, 数学评价体系里的注重证明优先权之类也都是围绕这一核心目标而形成的。 但在 AI 时代, 随着越来越多的数学问题能被 AI 解决, 数学研究正在由证明稀缺状态快速走向一个证明丰裕 (proof abundance) 的时代。 面对这样的时代, 数学评价体系应该作出相应的调整。

五. AI 时代的数学研究

具体地说, 陶哲轩认为数学家的主要工作可大致分为三个类别:

  1. 提供证明 (proof generation )
  2. 核验证明 (proof verification)
  3. 消化证明 (proof digestion)

在传统的数学研究中, 这三个类别都有相当难度, 也都很花费时间。 而且传统的数学研究还有一个特点, 那就是提供证明的数学家必然会在很多层面上核验证明, 而他们对证明的理解也往往最为深入——消化证明因此而变得不言而喻。 由于这个特点, 传统的数学评价体系素来看重提供证明与核验证明, 对不言而喻的消化证明则持相对轻忽的态度。 但 AI 时代的数学研究出现了完全不同的格局: 提供证明已越来越可能由 AI 独立完成, 核验证明也已有 AI 工具可以辅助, 反倒是传统上因不言而喻而遭轻忽的消化证明成了留给人类数学家的紧迫任务——因为由 AI 提供的数学证明, 多数都尚未得到充分消化, 也因此未对数学发展产生与数量相称的推动——用陶哲轩的话说, “也许出人意料地, 在提供证明上的这种大幅提速实际上并未对数学发展本身产生重大促进” (Perhaps surprisingly, this massive acceleration in proof generation has not actually produced significant acceleration in mathematical progress itself)[注七]

有鉴于此, 陶哲轩提议, 在证明丰裕的 AI 时代, 我们应显著提升消化证明在数学评价体系中的分量, 使之与另两个类别 “鼎足而立”。 他并且将这一提议 “数字化”, 主张将单纯提供证明只视为解决数学问题的 1/3 贡献, 将完成核验的证明也只视为 2/3 的贡献, 而将最后 1/3 的贡献归于消化证明, 以激励数学家们花费更多时间来理解 AI 提供的数学证明。 因为一个数学证明只有得到理解, 才能转化为人类自己的数学洞察——这在传统的数学研究中是极普通的事情, 在证明丰裕的 AI 时代却几乎要成为危机了。 未来若有越来越多由 AI 提供证明的数学命题被人类不加消化地运用, 则数学将会越来越变成死记硬背的学科, 人类的数学洞察则会有退化之虞。 陶哲轩对这一提议也给出了一个类比, 将之比喻为: 在食物稀缺的年代, 找到任何食材都是贡献, 但到了食物丰裕的时代, 单纯找到食材已不算什么, 甚至未必还会受欢迎, 因为人们已转而期待经过良好烹饪的食物。

我对陶哲轩的上述提议是很赞赏的, 它不仅合理, 而且对有志于数学科普的人来说是很鼓舞人心的, 因为消化证明这件事情不仅数学家能做, 数学科普——尤其专业科普——亦是大有可为。 使这件事情跟提供证明与核验证明 “鼎足而立”, 无形中提升了数学科普的地位。

当然, “三分天下” 已插足其二的 AI 未必就不能在消化证明上有所作为, 但人类对某些东西或许是会有同类偏好的, 就比如一篇小说, 是出自可以与之共鸣共情的人类作者还是 AI, 对多数人类读者来说是截然不同的。 更何况, 有些事情是必须由人类亲自去做的——就好比食物的消化必须用人类自己的肠胃来做, 才能吸收为人类自己的营养, 机器是无法代劳的。 因此, 消化证明也许确实会如陶哲轩所提议的, 成为 AI 时代数学研究的重要方面, 甚至, 在未来数学评价体系中的占比高于陶哲轩提议的 1/3 也是不无可能的。

除了像陶哲轩那样的个人思考外, 数学家们对 AI 时代的数学研究也正在进行着集体讨论。 如果说陶哲轩的思考侧重于 AI 时代的数学研究应鼓励哪些东西, 那么数学家们的集体讨论则似乎更侧重于——或起码同等侧重于—— AI 时代的数学研究应规范哪些方面。 毕竟, 规范乃是一种集体准则, 理应成为集体讨论的议题, 何况在数学研究中运用 AI 得到的并非都是成果, 而是也包含了用 AI 炮制出的垃圾论文之类, 后者必须通过适当的规范予以遏止。 那样的集体讨论虽远未完成——且在未来很长时间里都理应处于修订而非完成状态, 却已酝酿出一些阶段性的措施和倡议。

比如为遏止用 AI 炮制出的垃圾论文, 一些学术预印本网站及学术刊物已出台措施, 对用 AI 炮制垃圾论文的作者施以封禁一段时间的处罚。 比如 6 月 2 日, 国际数学联盟 (International Mathematical Union) 支持发布了一份被称为 “人工智能及数学莱顿宣言” (Leiden Declaration on Artificial Intelligence and Mathematics) 的文件, 针对 AI 时代的数学研究提出了一系列倡议, 其中包括: 数学证明必须公开透明, 对 AI 的运用必须明确列出; 人类作者继续享有论文的署名权, 但同时也必须对论文负全责 (因此出了问题不能甩锅给 AI); 数学家有责任对数学新闻给予支持, 并向公众解释运用 AI 得到的数学成果 (跟陶哲轩提议的消化证明颇有些异曲同工), 等等。

尽管有了上述种种思考和讨论, AI 时代的数学研究无疑仍处在刚刚起步的阶段, 所面临的机遇和挑战在深度和广度上都尚待观察。 从历史的视角看, 人类经历的每一次技术革命都对社会形态带来过变更, 替代掉某些工作, 同时也创造出新的工作。 如果说 AI 时代有什么特殊性的话, 也许是在极短的时间内涵盖了极广的领域, 比以往任何一次技术革命都更让人猝不及防。 以往的技术革命发生时, 人们也许会问: 什么工作会被替代? 而在 AI 时代, 面对通用人工智能的降临, 那问题变成了: 什么工作不会被替代? 一项技术、 一场革命、 一个时代, 如果在短时间内冲击太多人的生活, 那么哪怕远景值得憧憬, 如何度过当下依然是巨大悬念。 考虑到人类的政府架构之陈旧低效, 这悬念就更让人捏一把汗。 美国技术伦理学家哈里斯 (Tristan Harris) 在一次新近访谈中, 曾将人类因应 AI 时代的仓促狼狈很贴切地概括为 (基本架构) 源自十八世纪的老旧政府面对迅猛失控的新兴技术。

AI 时代的数学研究只是上述大背景下 AI 时代的一个缩影。 但数学家无疑是人类最精英的群体之一, 观察这样一群睿智而理性的人如何因应 AI 时代的机遇和挑战, 也许有助于对更宏大更遥远的整个人类的未来作出更好的评估, 这是这一话题超越学科的价值之所在。

注释

  1. 编号为 1196 的埃尔德什问题是一个针对由大于 1 且彼此不能相互整取的整数组成的所谓本原整数集 (primitive set of integers) 的数学猜想, 内容是: 若本原整数集 A ⊂ [x, ∞), 则 Σ(a log a)‒1 < 1 + o(1), 其中求和对 A 中所有的整数 a 进行, o(1) 项在 x → ∞ 时趋于零。 GPT 是 Generative Pre-trained Transformers (生成式预训练变换器) 的缩写, 是一种大语言模型, 也是包括 ChatGPT 在内的若干新兴 AI 系统的共同内核。 5.4 Pro (及后文将会提到的 5.5 Pro) 则是版本编号。 GPT-5.4 Pro 问世于 2026 年 3 月 5 日。 GPT-5.4 Pro 对该问题的证明所给出的 o(1) 为 O(1/log x)。
  2. 利希特曼所用的微博平台是 X。 另, 本文提到的日期或月份但凡未标年份, 其年份皆为 2026 年。
  3. 陶哲轩所用的微博平台是 Mastodon。
  4. 高尔斯所用的博客平台是 WordPress。
  5. GPT-5.5 Pro 问世于 2026 年 4 月 23 日。 高尔斯提到的组合学研究及其改进是针对一种被称为和集 (sumset) 的整数集的, 这种整数集是堆垒数论 (additive number theory) 的重要研究对象。
  6. 顺便说一下, 前文提到的编号为 1196 的埃尔德什问题也跟组合学有密切关系 (故而对高尔斯的 “安慰” 构成了支持), 是一个所谓的组合数论问题。
  7. 前文提到的编号为 1196 的埃尔德什问题在这方面是一个例外, AI 给出的解决方法不仅得到了充分消化 (从而才有利希特曼的 “来自天书的证明” 之赞许), 而且还——经过陶哲轩等人的运用——切实推动了数学发展 (被用于解决了另几个埃尔德什问题)。

2026 年  6 月  9 日完稿
2026 年  6 月 28 日发布
https://www.changhai.org/

相关链接

站长近期发表的作品

本文的讨论期限为 30 天, 目前距讨论期满尚有 29 天, 欢迎您

>> 参与讨论 <<