惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

阮一峰的网络日志
阮一峰的网络日志
Scott Helme
Scott Helme
P
Proofpoint News Feed
T
Threat Research - Cisco Blogs
C
CERT Recently Published Vulnerability Notes
P
Privacy & Cybersecurity Law Blog
云风的 BLOG
云风的 BLOG
V
Visual Studio Blog
Martin Fowler
Martin Fowler
Cisco Talos Blog
Cisco Talos Blog
罗磊的独立博客
MyScale Blog
MyScale Blog
博客园 - 【当耐特】
L
LangChain Blog
AWS News Blog
AWS News Blog
Security Latest
Security Latest
C
CXSECURITY Database RSS Feed - CXSecurity.com
P
Proofpoint News Feed
T
True Tiger Recordings
aimingoo的专栏
aimingoo的专栏
宝玉的分享
宝玉的分享
月光博客
月光博客
The Hacker News
The Hacker News
L
Lohrmann on Cybersecurity
The GitHub Blog
The GitHub Blog
Stack Overflow Blog
Stack Overflow Blog
S
SegmentFault 最新的问题
Recorded Future
Recorded Future
S
Security Archives - TechRepublic
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
WordPress大学
WordPress大学
Y
Y Combinator Blog
Recent Commits to openclaw:main
Recent Commits to openclaw:main
大猫的无限游戏
大猫的无限游戏
Apple Machine Learning Research
Apple Machine Learning Research
小众软件
小众软件
博客园 - 聂微东
GbyAI
GbyAI
N
News and Events Feed by Topic
The Cloudflare Blog
Engineering at Meta
Engineering at Meta
Last Week in AI
Last Week in AI
博客园 - 三生石上(FineUI控件)
G
Google Developers Blog
A
About on SuperTechFans
K
Kaspersky official blog
NISL@THU
NISL@THU
S
Securelist
Microsoft Azure Blog
Microsoft Azure Blog
V
V2EX - 技术

V2EX

[AI Agent 智能体] 为什么我觉得 AI 真正的机会在“数字员工” 我自己感觉 codex 极大的扩展了个人的能力者不用说,但是用多了似乎也会有更多精神问题 把 10.8GB vLLM 镜像的 Pod Ready 从 4m35s 降到 14s: Hermes + SOCI lazy loading 实测 [程序员] 免费共享自己的 token 给大家一起用 极豹代理注册送 500M 动态住宅流量 静态住宅 3 刀起 [Codex] 好像没有人说 ChatGPT 账户登录的 Codex,不支持 GPT-5.3 Codex、GPT-5.4 等模型了 有没有一种工作能每天稳定收入 10-50 元 [分享创造] 谁还记得 K-MeleonCCF 网页浏览器 [分享发现] 从 0 开始 vibe coding,产品上线一个月 1500+用户,我对用户增长的一些思考 [Windows] 卡巴斯基安全软件和卡巴斯基标准版选择哪个? [程序员] 做了一个本地音频处理 + 伪知识库应用,强依赖本地 ASR 模型,这种项目开源有意义吗? [Linux] 国产 Touchpad 在 arch 下偶发无法用手势 [问与答] 有老哥用 Portainer 吗? webhook 调用成功但是没有重新部署,哪位有经验? [问与答] 现在比较可靠的国外手机卡选哪家? [路由器] MikroTik RB5009 在 2026 是否还值得入手 [硬件] 外置硬盘有什么散热的好方案,太热了 OpenCode 的压缩算法有建议的兄弟们吗?主要是写 LaTeX 论文。 今年 618 是凉了吗 现在各类所谓戒网瘾机构真的太吓人了. 芒果 TV 好像在送免费的 glm 5.1 和 ds v4? 有大佬知道开了 ChatGPT plus 年费的情况下,可以再升级成 pro 吗?想只升级一个月用用 [分享创造] [分享创造] 做了一个纯本地的加密日记本,已上架 Google Play android 大佬们,有什么隐藏开发者 usb 调试的方案吗? [Visual Studio Code] VSCode 1.122.0 可以离线使用 BYOK 分析下“女生拒绝你,却还和你保持联系”这种现象 [宽带症候群] 部分机场拦截 SSL 连接,导致很多非浏览器软件的代理链路残废 [推广] [DDShub.cc]呆呆兽 Claude/CodeX 中转站,内含免费测试金 [程序员] 个人 side project 的设计工具用什么 今天 CPA 升级到 7.1.25 Codex free 只有 4 个模型了, gpt-5.5 还在,大家是不是这样? mimo 昨天重置之后为什么现在这么慢,是我的错觉吗 AI 编程是否是一种无效内卷? 做了个 Chrome 插件 DemoAlias,录 demo 时一键替换敏感数据 [Pixel] 想要入手个带一个 Sim 卡的 pixel10 在那块买更好 觉得现在入手合适吗 Mac pro M1 磁盘扩容问题 小米 mimo 模式是不是挂了,现在无应答了 Gemini 最近是降智了吗? 3.5 快是快但是回答的质量变差了 [程序员] 祝贺我司,月收入突破万刀~ [分享发现] [翻译] 为什么我要用 C# 构建数据库引擎 [分享创造] 使用 Skills 结合 NotebookLM 一人运营十个视频号 用 AI 如何做出好看的前端页面? 记一次令我非常无语的面试 [分享创造] GEO Wiki: 一个面向生成式引擎优化的百科全书 [分享发现] 哪位友友有滴滴 V8 [问与答] 有没有听力不太好,用苹果 air pod 的 [分享创造] Obsidian-Extensions-Activity 0.2 - 更好用的三方插件管理工具 《HelloGitHub》第 122 期 有没有阿里云的大佬,来说说这是真的,还是销售吹的? [Android] 看到 k80 可以解锁了 原来大型活动和人流量较多的地方有警察执勤并不是中国特色 [开源实时数字人] 商业级部署演示! 同时我们消费级卡的部署链路已经通啦,欢迎提意见~ [问与答] AI 搜索互联网资讯有啥好用的接口没? [副业] 跟风开了一个自助洗车店 [macOS] Mac 盖上盖子使用之后,每次开屏屏幕会花,这个是硬件问题还是驱动问题呢? 闪电藤即将下线,虾传正式上线 [DeepSeek] 今天 deepseek 崩了吗 codex 土区的 plus,能改成美区的 pro 吗,会触发手机验证吗 大家用过 Qwen3.7-Max 吗,说是比 GLM5.1, KIMI2.6 还强,真的假的? anthropic 既然如此抵触 cn,但是多国语言又提供简体中文? [程序员] 英语学了几十年,还是听不懂说不出,大家都是怎么练听说的? [问与答] 感觉有点 ai 阳痿了,话说你们都用 ai 做了啥 分享一个我做的 Apple Watch 独立游戏——30 秒打地鼠 [OpenAI] 有时候感觉言出法随比使用 superpowers 更方便快捷 [问与答] 有没有云南的?昆明彩礼一般多少啊? [生活] 我的无奈,我很想她,但是这不再可能 朋友用美国身份注册了 claude 账号,在国内使用会被封吗 [职场话题] 北京裁员赔偿上限是多少啊 [推广] 做了一个 AI 中转站 Lumi,新用户可免费订阅,每周送 2 元额度 17PM 7999 PDD、淘宝百亿补贴 [问与答] 我的 codex app 为什么这样? [分享创造] 无聊开发了一个蚊子白噪音助眠小程序,适合烦朋友 [程序员] Cursor 滞销了, 60 刀套餐回归玩家首月给 70% off [Wunder] edge.v2ex.com/chat 20260527 功能更新 [问与答] 寻找 image2,香蕉, seedance2 的 api; 取精室是怎么个流程?取不出来怎么办? opencode go 里的 mimov2.5 系列额度涨了 [酷工作] Crypto CEX 诚聘 AI 测试工程师 薪水 20K-30K RMB 纯远程办公 [生活] 你有给自己买什么商业保险吗,或者说有必要买商业保险吗 claude 发的这句话啥意思,说我问的多了吗 Quantumult X 又更新了 配置优化更新了一下 [问与答] 不知道是不是错觉, typeless 在 Macbook 上的耗电感觉有点快 老婆送了我个 iPhone17 Pro Max 1T,但我更舍不得我的 iPhone13 巨魔 福利: 4 个住宅 IP 兑换码,新用户专享 mac 笔记本 500G,开发用,现在没有储存空间了怎么办 是否存在港卡以外的其他选择?比如东南亚各国? DigVPS 测评 - 100TB 新增美国 Los Angeles - Global Tier1 产品:这应该是 Y 系第一个美国产品?限量九折优惠中。 [程序员] OpenCode x MiMo V2.5 - 限时免费 现在的你有哪些骄傲和无奈呢 香港金管局:就内地投资者投资账户新增三项监管措施 开户核查倒查至 2023 年 1 月 做了个 macOS 网站与应用拦截器, 保持专注. [小米] 有没有安卓玩机高手请教点问题 我发现 it 类工作者是最严重的性压抑群体 包括我自己 it 类的工作者 [开源] 高阶魔方一键求解器 Cursor 还能买吗, 20 刀和 60 刀的大概能用多久? ai studio 被疯狂封 api 怎么回事 Zerolang 好像还没人讨论? [问与答] token 用量究竟是怎么算的? 香港众安银行开户返 300HKD+50USD 英伟达股票兑换券 活动时间 5.28 日至 7.1 日截止。 vibe coding 了个辅助颈腰椎病康复的体态相机小工具 有在用免费 VPS 的吗?可以当梯子用吗? 这个 sechub 网站搬运了很多 V 站的内容,站方能管到它吗
Google 新出了 AlphaEvolve,我的详细观察和想法。
sillydaddy · 2025-05-19 · via V2EX
  • Google 的 DeepMind 发表了最新的 AlphaEvolve 成果。

  • 它可以看作是一种编码智能体,不过跟现存的编码 Agent 差别不小。下面详细说一下。

  • 它的机制是给现有大语言模型(如 Gemini )的外面套一层进化学习的框架,让大语言模型作为进化学习中的关键一环。而经过进化得到的答案,大大超出了直接询问大语言模型的结果。

  • 它做到的效果是:将 50 多年来未曾改进过的 4 * 4 矩阵乘法运算,由 49 步乘法运算优化到了 48 步。另外还有 50 多个数学、编码、几何等方面的难题中,75%追平了人类的最好效果。20%超越了人类的最好效果。Google 使用它对现有的机器学习中的关键代码进行优化,有了很大的效率提升,节省了数亿美元。

  • 其实 AlphaEvolve 的思想很简单:首先,由人类提供一个初始的代码方案(可能非常粗糙),然后由大语言模型基于这个方案,生成相关的「变异」代码,也就是略微的改进,然后再由人类定义的评估函数,去评估所有「变异」方案的执行效果,是否相比于之前的分数提高了。保留评分较高的「变异」方案。然后循环,将这些新方案再喂给大语言模型,生成进一步的「变异」。如此往复。

  • 我仔细观察了这个过程,发现了几个关键的点:

    • 1 是必须要有确切的评分方案。这个评分方案,一般可以由机器自动执行,比如评分方案是一段验证代码,可以运行「变异」方案的代码,得到评分结果。主要是起量化比较的作用。比如方案的生成步数、执行时间、代码长度等等。评估的得分,不一定非得是一个分数。它可以包含多个维度的得分。甚至可以借助大语言模型来生成评估分数。这也决定了那些无法自动评分的领域很难应用,比如医学领域必须要进行相关的细胞实验甚至体内实验才能得到评估结果。
    • 2 是大语言模型,在这其中主要的作用是得到「变异」方案。它可能会对原来的方案进行局部的调整,生成大量的「变异」方案,以供后续的筛选。我感觉这里面利用大语言模型,主要是在用它的理解能力。相比于由人来定义程序该「变异」,或者相比于完全随机的变异,效果可能更好。白皮书里面也提到,使用规模小的语言模型,效果不如规模大的语言模型好。
    • 3 是在选取大语言模型生成「变异」时,既选择了非 Thinking 类型的 Gemini ,也选择了 Thinking 类型的 Gemini ,前者可以更快的提供更多的「变异」,后者则提供虽然数量少,但更有深度的「变异」。
    • 4 是评估方案,实际上是模拟了进化过程中的自然选择作用。所以,由大语言模型生成的「变异」方案,不是说全部淘汰只保留一个,而是保留足够的多样性,所以 AlphaEvolve 会保留足够多样性的「变异」方案存储在数据库中,以供迭代。而进化能够迭代的一个基本要求是,评估函数对每个「变异」方案得到的数值,必须是连续的,也就是有数值上的连续变化(0.0~1.0 之间),而不能是简单的有或无(true 或 false)。举例来说,如果待验证的问题,只有成功和不成功这 2 个结果,而没有其他的评估得分,那么就很难使用这种进化策略。不过,具体怎么设置这些评估方案,主要是考验人的想象力,比如对于矩阵乘法运算的算法优化,如果只按照步骤数这个整数来评估,显然很难从 49 步优化到了 48 步,因为仅靠步骤数这个评分,无法驱动这个进化过程。AlphaEvolve 的设计者,显然找到了针对矩阵乘法运算的一个更好的评估方法。
    • 5 是白皮书专门强调了,这种进化主要是发生在代码这种形式上的,不管是为了解决矩阵乘法,还是图形 packing ,还是几何问题,又或者是一些数学难题,似乎都是先把原问题转化为代码求解的形式,然后使用大语言模型在代码上进行「变异」。而不是直接求解原来的问题。无论如何,这种策略似乎很有效。
    • 6 是如果去掉了进化的过程,而是每次都给大语言模型输入同样的原始方案,然后让它去不停输出「变异」方案,似乎也能获得逐步改进的方案,但是它的上限不如通过进化迭代的结果。也就是说,针对同样的原始方案输入,大语言模型每次输出的「变异」方案都不同,从这些方案中选取更优的方案,效果也会逐步提升,但终究不如进化的方式。
    • 7 是方案中似乎没有提到保留「多样性」的目的,是不是这些多样性的「变异」方案,会被一起输入到大语言模型中,起到一种「变异组合」的效果?白皮书中我没有注意有提到,但我猜想很有可能是这样。采用多个维度的评估函数,也印证了这一猜想——使用多个维度的评估函数,其实是在筛选不同方向的「变异」方案,最后将这些「变异」方案都给到大语言模型,由它生成这些「变异」组合后的新的「变异」方案,无疑效果会更好。
  • 那么说一下我的感想:

    • 尽管思路很简单,AlphaTensor 仍然足够让人感到惊讶。它仅仅是简单组合了一下大语言模型,加上进化的迭代过程,就产生了有足够创造性的结果,远远超出了直接使用大语言模型所达到的效果。连 DeepMind 的员工也对结果很震惊。
    • DeepMind 的员工提到,它们之前已经使用过 AlphaTensor 尝试过破解矩阵乘法,但是没有斩获。AlphaTensor 就是基于的就是大名鼎鼎的 AlphaZero 模型,通过自我对弈强化学习发现了围棋真谛的那个。AlphaTensor 将发现矩阵乘法算法的过程视为一个张量分解游戏,它与 AlphaZero 架构一样,通过蒙特卡洛树搜索( MCTS )来探索可能的算法空间)但是 AlphaEvolve 就做到了。这似乎暗示了基于大语言模型的搜索,使用其智能加持,取代了蒙特卡洛这种近似暴力的搜索,加速了搜索的过程。我在想,这是不是同样暗示了人工智能的发展路径:大量的神经网络模型,各自探索学习并进化,现有的大模型需要「社会化协作」,而不仅仅是单打独斗。
    • 考虑一下,这跟人类的科研发现的过程,其实非常相似,大量的科研人员、工程人员,还有普通人,在实践中,不断基于已有的成果,去改进、去创新,去劣存优,不同的人往往在探索不同的路径,这其实也是在一个解决方案的空间内不断搜索的过程。每一步优化都被保留和积累下来,每个以前的成果都被吸收,最终取得让人非常震惊的成就。
    • 或者换个思路,现在各种 AI ,都是不可理解的黑盒子,表现好的有扩散模型,有 token 预测模型,有强化学习框架,有进化框架等等。那人们就把这些表现好的模型杂交一下。比如 token 预测与强化学习杂交,形成了大语言模型;比如扩散模型和 token 预测杂交,形成了 Sora ;比如进化框架与大语言模型杂交,形成了 AlphaTensor……这些杂交的尝试,与 AlphaTensor 内部所做的事情,有什么区别吗?它们都是根据几个黑盒方案的表现效果,然后凭借一些直觉去生成「杂交」或「变异」,然后再去迭代看看效果如何。
    • 考虑到编程这项工作,是高度可验证的,AlphaEvolve 的思路似乎比较适合去优化代码。我不知道把它用在实际的软件工程领域会怎么样。白皮书里面提到了 AlphaEvolve 可以针对数百行代码的功能进行优化。这似乎还不够。
    • 此外,访谈的讨论还涉及了如何将这个 Evolve 过程中得到的知识,融合到大语言模型中时,使得它对于被研究的问题有更深的理解,目前似乎还没有答案。
  • 彩蛋: 一些数学难题,是由陶哲轩提供的,他还给出了如何将它们形式化为大语言模型可以理解的形式,听说他最近痴迷于人工智能,自己的数学研究都落下了。

  • 参考资料

  • 官方白皮书: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf

  • AlphaTensor 解决的问题: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf 的附件 2 中,可以看到这些问题有一些比较明显的特点。

  • DeepMind 相关人员的 1 小时访谈: https://www.youtube.com/watch?v=vC9nAosXrJw

    • 访谈目录:
    • [00:00:00] 引言: Alpha Evolve 的突破、DeepMind 的传承与实际影响
    • [00:12:06] 介绍 AlphaEvolve: 概念、进化算法与架构
    • [00:16:56] 搜索挑战: 停机问题与促成创造性的飞跃
    • [00:23:20] 知识增强: 自生成数据、元提示与库学习
    • [00:29:08] 矩阵乘法突破: 从 Strassen 算法到 AlphaEvolve 的 48 次乘法
    • [00:39:11] 问题表示: 直接解法、构造器与搜索算法
    • [00:46:06] 开发者反思: 令人惊讶的结果与优于简单 LLM 采样的表现
    • [00:51:42] 算法改进: 爬山算法、程序合成与可理解性
    • [01:00:24] 实际应用: 复杂评估与机器人技术
    • [01:05:39] LLM 的作用与未来: 先进模型、递归自改进与人机协作
    • [01:11:22] 资源考量: AlphaEvolve 的计算成本