惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
G
GRAHAM CLULEY
P
Privacy & Cybersecurity Law Blog
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
宝玉的分享
宝玉的分享
P
Proofpoint News Feed
H
Help Net Security
V
Visual Studio Blog
阮一峰的网络日志
阮一峰的网络日志
C
Cisco Blogs
人人都是产品经理
人人都是产品经理
Know Your Adversary
Know Your Adversary
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Recorded Future
Recorded Future
I
Intezer
罗磊的独立博客
T
The Exploit Database - CXSecurity.com
Blog — PlanetScale
Blog — PlanetScale
Malwarebytes
Malwarebytes
Spread Privacy
Spread Privacy
T
Tor Project blog
V
Vulnerabilities – Threatpost
云风的 BLOG
云风的 BLOG
腾讯CDC
B
Blog RSS Feed
Stack Overflow Blog
Stack Overflow Blog
F
Future of Privacy Forum
MyScale Blog
MyScale Blog
Latest news
Latest news
IT之家
IT之家
MongoDB | Blog
MongoDB | Blog
The Hacker News
The Hacker News
S
Securelist
博客园 - 【当耐特】
C
CXSECURITY Database RSS Feed - CXSecurity.com
T
Threat Research - Cisco Blogs
Jina AI
Jina AI
Cisco Talos Blog
Cisco Talos Blog
B
Blog
博客园 - 三生石上(FineUI控件)
Last Week in AI
Last Week in AI
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
M
MIT News - Artificial intelligence
V
V2EX
D
Darknet – Hacking Tools, Hacker News & Cyber Security
The Cloudflare Blog
The GitHub Blog
The GitHub Blog
博客园 - 聂微东
F
Full Disclosure
C
CERT Recently Published Vulnerability Notes

The Decoder

US Cyber Command races to deploy AI on top-secret networks Cohere open-sources its strongest model yet Anthropic is about to become the first profitable AI lab OpenAI could file confidential IPO paperwork within days SpaceX IPO filing shows billions in AI losses, a $2 trillion valuation target, and turbine spending that signals more data center conflicts ahead SAP taps Mistral AI to help customers migrate legacy software Deepseek wants to take on Claude Code and OpenAI's Codex with "Deepseek Code" LinkedIn's war on AI slop is not just a policy update—it is an admission that the platform lost control of its feed Google tests the app market version of the SaaSpocalypse Stability AI launches Stable Audio 3.0 with up to six-minute tracks and open weights Google pairs its Genie world model with Street View to create explorable AI worlds based on real places Google's Gemini 3.5 Flash follows Anthropic and OpenAI in making newer AI models significantly pricier Google overhauls its AI subscriptions at I/O 2026 with three tiers starting at $10 a month Sorry for the outages: Bot spam is pushing our servers to the limit Google's I/O announcements: new models, a cloud agent that never sleeps, and a redesigned Gemini app Prominent AI researcher Andrej Karpathy picks Anthropic over former home OpenAI to get back into frontier LLM research Agora-1 turns the N64 classic GoldenEye into a playable AI simulation for four players Mistral AI acquires Viennese physical AI startup Emmi AI Cloudflare says Anthropic's Mythos Preview finds exploit chains that earlier frontier models missed Anthropic adds self-hosted sandboxes and MCP tunnels to Claude Managed Agents Elon Musk appeals $134 billion OpenAI loss, calls verdict a "calendar technicality" Elon Musk loses his $134 billion lawsuit against OpenAI after jury deliberates for just two hours Cursor's Composer 2.5 matches Opus 4.7 and GPT-5.5 benchmarks at a fraction of the cost Pope Leo XIV presents first AI encyclical, Anthropic co-founder invited as guest speaker A Stanford student reflects on his ChatGPT class and a culture of "just a little bit of fraud" MAGA-aligned groups want government oversight of frontier AI models Anthropic to brief global financial regulators on cyber flaws found by Claude Mythos AI startup revenue hits $80 billion, but Anthropic and OpenAI take almost all of it World Action Models give robots the ability to simulate consequences before they move Greg Brockman consolidates OpenAI's product teams to build an "agentic future" Mistral CEO Arthur Mensch warns France against letting Anthropic's Mythos scan military code bases New math benchmark reveals AI models confidently solve problems that have no solution Four AI models ran radio stations for six months and the results ranged from competent to unhinged Oppo open-sources Android AI agent X-OmniClaw that uses your camera, screen, and voice without leaving the phone New benchmark shows Claude Mythos and GPT-5.5 can develop real browser exploits autonomously YouTube opens its deepfake face-swap detection tool to all adult creators New benchmark confirms AI video generators look stunning but still can't reason about the world OpenAI bought a voice cloning startup famous for celebrity imitations For $1.3 million a month, OpenClaw founder Peter Steinberger runs 100 AI agents that code, review PRs, and find bugs AI made a tiny slice of Silicon Valley filthy rich and left the rest wondering why they bother Researchers train AI model that hits near-full performance with just 12.5 percent of its experts Google says GEO and AEO are a myth and traditional SEO is all you need for AI search Google busts the myth that AI search needs its own SEO playbook ChatGPT now wants access to your bank account so it can tell you to stop ordering takeout Anthropic's $900 billion valuation would make it more valuable than OpenAI for the first time x.AI plays catch-up with Grok Build, its first terminal-based coding agent Microsoft pulls Claude Code licenses and pushes developers back toward its own AI tool Arxiv cracks down on unchecked AI-generated content in research papers Anthropic frames AI competition with China as a now-or-never moment for Washington OpenAI makes its AI coding assistant Codex available on iOS and Android
OpenAI 以一项“AI数学领域的里程碑”推动了自动化推理的边界,专家们现在正在解读这项成果
Maximilian S · 2026-05-22 · via The Decoder

OpenAI的一个内部推理模型推翻了匈牙利数学家保罗·埃尔德什提出的所谓单位距离猜想。OpenAI与一篇由九位外部数学家撰写的附属论文一同宣布了这一结果,该论文验证、简化和评论了该证明。

这个问题本身看似简单:在一张纸上放置一定数量的点。有多少对点可以正好相距一单位?1946年,埃尔德什猜想,在一个略微倾斜的正方形网格上的简单排列已经接近最优解。这种排列产生的点对数量仅比点的数量本身增长得微乎其微。据数学家托马斯·布卢姆所说,埃尔德什曾悬赏500美元寻求反例。根据标准参考书,这个问题被认为是“可能是组合几何中最著名(且最容易解释)的问题”。离散几何中的研究问题.

八十多年后更好的构造

OpenAI 的模型发现了一种新的点排列方式,比经典的正方形网格产生了明显更多的单位距离对。普林斯顿大学的 Will Sawin 将这种增益估计为每增加一点数量约提高百分之一的对数。这听起来很小。但在这种背景下,它很重要,因为 Erdős 猜想几乎不可能有任何这样的增益。尽管问题尚未完全解决:一个自1984年以来已知的理论上限仍然远高于新构造所达到的水平。

令人惊讶的是这些工具的来源:不是几何学,而是代数数论。模型不是使用经典的点网格,而是使用复数系统,其内部对称性转化为特别密集的点模式。这些工具在数论中已经标准使用了数十年。然而,将这些工具应用于平面几何的基本问题,却被相关数学家认为非常牵强。

人类为何错过了解决方案

托马斯·布卢姆在他对配套论文的贡献中写道,一个人要找到这个解决方案,必须满足四个条件:你必须花大量时间研究这个问题,与埃尔德什的既定观点相悖,并实际尝试推翻它,想要将原始构造转化为数域世界,并且足够熟悉相当专业的类域理论。“人工智能满足了所有这些标准,”布卢姆写道。它结合了“超乎常人的耐心和对大量技术机械的熟悉。”

Sawin提出一个技术性原因,解释为什么显而易见的泛化失败了。自然的方法本应是选择一个扩展的数系,然后看看越来越大的数系部分,本质上在更复杂的数系中膨胀旧的网格。根据Sawin的说法,这只会回到旧的Erdős界限。该模型的关键技巧正相反:它在每个数系内保持尺度固定,但在每一步都切换到更丰富的数系。Sawin写道,为什么这种特定的切换有效,对任何人类来说都不明显。

布卢姆在AI解决方案发表前一个月就在一篇博客文章中列出了这个问题,称其为他的“十大埃尔德什问题”之一。他的动机是:一些观察者研究了早期针对更简单埃尔德什问题的AI解决方案,并得出结论,这位数学家的所有问题都很肤浅。布卢姆想证明许多埃尔德什问题都催生了数十年的深度方法。

单位距离猜想是他清单上唯一的离散几何问题,正是因为它“几十年来一直未能被证明”。布卢姆指出,斯宾塞、塞梅雷迪和特罗特在1984年建立的界限在40多年里没有被改进: “这个问题是一个很好的例子,尽管近年来离散几何取得了一些惊人的成果,但我们对其中一些最基本的问题的理解仍然很遥远。” 他没有料到一个月后AI就能破解这个问题: “虽然我相信AI最终会在清单上的至少几个问题中取得一些进展,但我没想到会发生在一个月后!”

组合学领域的领军人物之一诺加·阿隆(Noga Alon)将这一成果称为"杰出的成就",并将这一惊人的发现描述为"这一构造及其分析相当巧妙地应用了代数数论中相当复杂的工具"。菲尔兹奖得主蒂姆·高尔斯(Tim Gowers)写道,如果人类将这篇论文提交给《数学年鉴》并要求快速评估,"我会毫不犹豫地推荐接受"。以前还没有人工智能生成的证明接近这个水平。高尔斯称其为"人工智能数学中的一个里程碑。"

数论学家Arul Shankar认为这项工作证明当前AI模型“不仅仅是数学家的助手——它们能够产生原创的巧妙想法,并将其付诸实践。”Bloom对此进行了限定:该证明并未提供任何根本性的新几何工具,而这类工具可能是证明猜想所必需的。但它表明,“数论构造在这些问题上所要说的话,比我们原先怀疑的要多得多。”他预计“未来几个月,许多代数数论学家将密切关注离散几何中的其他未解决问题。”

为什么这个案例不同

人工智能系统在过去几个月中已经解决或部分解决了一系列的埃尔德什问题。平台erdosproblems.com,由Bloom维护,收录了大约1,000个问题。根据菲尔兹奖得主陶哲轩的说法,到2025年9月,其中大约380个已经被解决。在2026年初的一段时间内,大约还有50个问题被解决,有些是人类解决的,有些是AI解决的,还有些是混合解决的。其中一些解决方案只占几页纸,或者难度相当于有挑战性的家庭作业练习。

这正是推动Bloom编制他那份前十名名单的原因。他注意到最近一些数学家开始轻视Erdős问题,或许是因为他们看到这个网站上AI解决的一些问题其实相当简单,并错误地将此推广到假设Erdős提出的所有问题都是有趣的趣题,难度与奥林匹克问题相当。

单位距离反证被明确地归入不同类别,无论是在附属论文中还是在OpenAI看来。根据OpenAI的说法,这是“首次由AI自主解决一个著名的开放问题,该问题对于数学的一个子领域至关重要。” Bloom描述了他自己的反应:当他得知这是一个反证时,他的巨大惊讶“稍微减弱了”,当他看到构造时,惊讶进一步减弱。

然而,这一发现依然成立:与之前的埃尔德什解法不同,这并非一个可及的练习。这是一个被认为困难了八十年的问题,其上界自1984年以来未曾改变,而其解法需要来自遥远领域的工具.

高尔斯总结道:如果人类提交了这项工作,他会毫不犹豫地接受它发表在《数学年刊》上。此前没有任何AI生成的证明接近这个水平。

这个结果对数学本身意味着什么

一些参与其中的数学家利用这篇附属论文来反思人工智能对其领域贡献的结构性后果。合著者丹尼尔·利特提出了令人不适的问题:为什么存在一些可以通过相对简短、巧妙的论证来解决的问题?他的猜测是:要么研究人员坚持不理想的假设——比如埃尔德什本人坚信他的猜想是正确的——要么解决方案需要来自相关领域大多数人不太熟悉的领域的思想。

"这些解释,如果正确,应该让我们感到一些不适,"利特写道。"它们表明,虽然专业化和小团体化的激励是可以理解的,但它们让我们失去了一些高质量的科学研究。"利特对比了人类的方法,即研究人员出于个人好奇心深入探究几个问题,与当前AI系统性地处理整个问题列表的模式。这相当于"极大地扩展了针对数学问题的注意力。"

高尔斯对自己的反应直言不讳。当他最初认为AI证明了这个猜想而不是推翻它时,他花了一整晚“调整我的世界观:如果AI能想出这样的证明,那么数学家们可能很快就会完蛋了。”第二天早上,当错误被澄清时,他感到“非常宽慰”。可以想象一个证伪是耐心和反复试验的结果。一个真正的证明将需要“深刻的洞察力”,而这会让人不安。

在配套论文中,Gowers提出了自己的证明难度度量方法。他称之为"专家模Kolmogorov复杂度"——即专家独立重构证明所需的最短提示序列长度。他的初步观点是:AI目前尚未全面超越人类,但在特定问题类型上具有优势。它拥有"数学百科全书式的知识",对时间管理不那么焦虑,因此"可以承受相当大的努力去证明那些看似不太可能为真的命题"。

即便如此,他说进步不会停滞不前。很快就会有AI解决方案,“我们很难事后解释说它们比预期的更容易。”即使AI找不到长而复杂的证明,“我们可能已经进入了这样一个时代,人类在解决数学问题方面将很难与AI竞争。”

Bloom处于中间位置。对于他自己提出的测试问题——这个证明是否为该领域关于该问题带来了新的见解——他回答是“谨慎的肯定”。数论构造显然比任何人怀疑的要更多地说明这些类型的问题,并且所需的数论可以非常深入。该领域的有些人可能失望于证明没有提供“强大的新几何工具”或意外的结构结果,而一个完整的猜想证明很可能需要这些。解决方案是,“事后看来”,一个自然的推广,但“高度非平凡”。人类发现它需要四个罕见的巧合。

Bloom 这样描述 AI 的优势:它结合了“超乎常人的耐心”、“对各种技术设备的熟悉”以及“坚持探索人类可能认为不值得花时间研究的路径”。他的观点是:“知识的边界非常崎岖,毫无疑问,在接下来的几个月和几年里,在数学的许多其他领域将看到类似的成功,其中长期悬而未决的问题将由 AI 揭示出意想不到的联系,并将现有技术设备推向极限。”

人类和机器分担工作

OpenAI 发表的伴侣论文本身就是一个预览,展示了未来 AI 与研究人员之间可能如何分工。该模型生成的原始证明据 Bloom 称是“完全有效的”,但人类作者“显著改进”了它。只有 Sawin 的改进才产生了具体的改进程度。伴侣论文中发表的版本比原始版本更短、更一般。

那第二步最近是在斯坦福大学数学未来研讨会上,陶氏进行的一场演讲的主题。陶氏认为,当前的数学实践正在经历“证明消化不良”:AI系统生成和验证证明的速度越来越快,但人类的消化能力,也就是说  理解、解释、情境化以及基于结果进行构建,已经跟不上步伐了。他对一个解决方案是否真正完整的标准是:有人能就其进行演讲并回答问题吗?在单位距离反证的情况下,九位杰出的数学家同意做这项工作。这个标准能否扩展是另一个完全不同的问题。