惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

WordPress大学
WordPress大学
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
小众软件
小众软件
MyScale Blog
MyScale Blog
B
Blog
Apple Machine Learning Research
Apple Machine Learning Research
D
DataBreaches.Net
博客园 - 三生石上(FineUI控件)
A
Arctic Wolf
S
Schneier on Security
H
Hackread – Cybersecurity News, Data Breaches, AI and More
博客园 - 叶小钗
L
LINUX DO - 热门话题
Cisco Talos Blog
Cisco Talos Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Security Latest
Security Latest
博客园 - Franky
大猫的无限游戏
大猫的无限游戏
云风的 BLOG
云风的 BLOG
Microsoft Azure Blog
Microsoft Azure Blog
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
A
About on SuperTechFans
酷 壳 – CoolShell
酷 壳 – CoolShell
量子位
C
Cyber Attacks, Cyber Crime and Cyber Security
The Cloudflare Blog
宝玉的分享
宝玉的分享
Scott Helme
Scott Helme
L
LangChain Blog
人人都是产品经理
人人都是产品经理
Y
Y Combinator Blog
F
Fortinet All Blogs
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Blog — PlanetScale
Blog — PlanetScale
C
Cisco Blogs
P
Palo Alto Networks Blog
Microsoft Security Blog
Microsoft Security Blog
The GitHub Blog
The GitHub Blog
美团技术团队
博客园 - 【当耐特】
C
Cybersecurity and Infrastructure Security Agency CISA
G
GRAHAM CLULEY
The Register - Security
The Register - Security
罗磊的独立博客
月光博客
月光博客
C
Check Point Blog
F
Full Disclosure
C
CXSECURITY Database RSS Feed - CXSecurity.com

InfoQ - 促进软件开发领域知识与创新的传播

Meta 收购 Manus 这事儿泡汤了 5.5万 Star 开源项目 Ghostty 被迫出走,GitHub 正在终结一代技术人的乌托邦 Slack 长时运行多智能体系统的上下文管理方案 从 T+1 到分钟级:金城银行基于 Apache Doris 构建高可靠、强一致的实时数据平台 谷歌云推出 Agents CLI,简化 AI 智能体开发全流程 Claude官方击穿高薪、高学历的安全防线!Anthropic点名10大高危职业,但有群人暂时稳了 亚马逊云科技终止 WorkMail 服务,并将 App Runner 转入维护模式 OPPO小布记忆:全模态碎片化内容的理解与智能整理实践|AICon上海 模力工场038周AI应用周榜:工具在消失,工作流在出现 Akamai CEO Tom Leighton:Agent 时代来临,云基础设施正从“中心化”转向“分布式边缘” 日均数百亿入库背后:从“人肉调度”到K8s弹性架构,度小满金融基于OceanBase重构入库架构实践 百度文库网盘发布GenFlow 4.0:月活用户超1亿,要把网盘变成全端AI工作台 Altman 投的 Agent 终端 Warp 开源了!斩获3.5万star 哪些客户需要拒, 敢让龙虾决定吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 从开发到生产:为什么越来越多的机器学习团队纷纷迁移到 Snowflake | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 探索多智能体工作流:LangGraph Snowflake Cortex AI | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 腾讯云分布式缓存数据库:AI Agent - 从提示词工程到 Harness 工程 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 基于 Streamlit 为 CSV 数据构建分析智能体 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 AI 智能体:告别文档缺漏 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 构建 AI 驱动的数据管道:深度探讨 Snowflake Openflow 与非结构化数据 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 云端太贵、本地不够聪明,英特尔押注“端云混合AI”:智能体PC会替人完成工作 不到10%的存储投入,可能拖垮90%的GPU投资!IBM把AI Agent塞进存储系统,算清企业最容易忽略的一笔账 Snowpark 上手实战 | BUILD 2025_大数据_王玮_InfoQ精选视频 ClickHouse + Langfuse,构建 Agent 可观测基石 腾讯云分布式缓存数据库:Cluster Proxy 共享连接架构深度解析 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 AI 写代码太烧钱了:Copilot、Claude 一起涨价,不如把程序员请回来? 英特尔发布至强600系列工作站处理器与锐炫Pro B70 GPU,全新AI工作站来了 腾讯云分布式缓存数据库:从 Redis 到 Valkey - 开源社区如何快速创新 | 腾讯云数据库 DBTalk_腾讯_凌敏_InfoQ精选视频 印奇这次要“从0重做”智驾模型!首谈阶跃和千里双公司布局:中国AI商业闭环要靠车跑出来 从Cursor返聘归来,90后华裔女高管带Claude开启日更模式:token成本比工程师工资低多了! 从 Coding 到 Agent:QCon 北京 2026 全景复盘,优秀出品人 & 明星讲师名单揭晓 全链路支撑大模型国产化“Day 0适配”,商汤大装置构建全栈能力底座 凌晨,OpenAI 与亚马逊云科技史上最大联合发布来了 HashiCorp Vault 2.0 发布:引入新身份联邦机制,迈入 IBM 生命周期体系 Yelp 实现超 1,000 个 Cassandra 节点零停机升级 写了 17 年开源代码,我为什么认为 Coding Agents 堆功能是在瞎折腾? 基于 Apache Camel 编排智能体与多模态 AI 管道 面向智能体与人类用户的AI记忆系统:架构设计与核心场景实践|AICon上海 Anthropic 推出 Managed Agents,简化 AI 代理部署流程 阿里HappyHorse开启灰测,720P视频生成低至0.44元/秒 讯飞联合清华团队押注量子AI:不看营收、不设KPI,一群“无人区”科学家,抢夺下代AI算力入口 小米万亿模型全面开源:MIT 协议、1M 上下文,但还是打不过 DeepSeek Cortex Code 入门指南:面向数据工程师的实践路径 | 技术实践 openJiuwen社区首发Team Skills,定义Coordination Engineering新范式 用 Snowflake Cortex Agents 释放结构化数据的最大价值 | 技术实践 Grafana 利用 Kafka 对 Loki 进行了架构重构,并发布了一款命令行工具,旨在将可观测性引入编码代理 ClickHouse重构全文索引:对象存储上跑出高性能 Full-Text Search 可观测性和遥测技术如何提升软件工程实践 Dropbox 与 GitHub 合作,将单体库大小从 87GB 缩减至 20GB Agent 的下一站:基于长期记忆系统 EverOS 的自我演进|AICon上海 同一赛道,四种收费:Agent 控制层(Harness)开始分裂 Cloudflare Sandboxes 正式发布,为 AI 代理提供持久化隔离环境 Agent 的“记忆断片”困局,该怎么破?_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选视频 数据分析师如何快速建立在 AI 时代最值钱的能力:一份可落地的行动路线图 摩尔线程最新财报:研发占比超86%,万卡级大规模智算集群落地 当云区域失效:地缘动荡环境下的高可用重构 Slack 重构通知系统,设置参与度提升 5 倍 智能体工程的隐性技术债务 “我把所有模型都换成了DeepSeek V4”:月账单将降 90%,效果还更好 阿里云智能集团高级技术专家刘少伟已确认出席AICon上海站,并分享如何构建企业 Agent 的自动化行动架构 构建生产就绪的 tRPC API:Apollo Federation 的 TypeScript 替代方案 Anthropic推出面向Claude Code的基于智能体的代码审查功能 北京车展直击:斑马智能甩出车载Agent短剧,比亚迪率先落地,AI让智能座舱又热起来了 Snowflake 作为智能体运行时:从静态管道迈向自主数据系统 | 技术实践 Snowflake 上的本体体系:基于 Cortex Code 能力实现从架构到部署 | 技术实践 Cloudflare 公布 MCP 架构方案,应对企业面临的安全与治理风险 复杂的项目管理怎么做到「AI 友好」?飞书项目用「开放」给出答案 Snowflake Cortex Code 的规范驱动开发:将 SDLC 方法论引入 AI 辅助工作流 | 技术实践 Copilot 不让注册了:从“随便用”到“全面限”,agent 把原有订价模型顶穿了 当互联网用AI卷效率时,这家公司先问了一连串“能不能” Meta 开始记录员工每一次点击:AI 要接管工作,先监控会工作的人 Meta“Token榜”逼疯打工人,一夜烧掉公司几万刀!AI时代Token焦虑越来越离谱 智源FlagOS完成DeepSeek-V4-Flash在八款芯片Day0适配,实现三重技术突破 DeepSeek V4 重磅开源!首次打通华为Ascend,也没丢掉英伟达,百万上下文夺回国产模型话语权 李志飞的“新实验”:当超级个体撞上真实组织 GPT-5.5 登顶时刻,Anthropic 亲口承认 Claude 变笨了!网友群嘲:太敷衍 那些没空写的小需求,龙虾真能做吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 从 Pandas 到生产:使用任意 IDE 进行可扩展的 ML 数据管道与分布式处理 | BUILD 2025_AI&大模型_王玮_InfoQ精选视频 pnpm 11 候选版本发布,带来 ESM 分发、供应链默认设置以及新的存储格式 银行业PDF表格提取方案重构:基于Java的分层方案 GPT-5.5 赢了 Opus 4.7 和 Mythos?奥特曼晒黄仁勋内部信:英伟达全员用上 Codex! Cloudflare 推出 Think:一款面向 AI 代理的持久化运行时 1850亿美元天价支出、75%代码由AI生成!谷歌正式宣告:全面转向智能体工作流 xAI落后太多,马斯克“开大”重金求购Cursor,100亿美金“分手费”都敢签! Pulumi 新增对 Bun 运行时的全面支持 姚顺雨腾讯模型首秀!不卷参数只做 “听话打工人”,Hy3 preview登场 | 附实测 老板让你“忽悠”投资人,你敢发给龙虾吗?_AI&大模型_InfoQ 中文站_InfoQ精选视频 Gemini CLI 引入子代理机制,实现任务委派与并行代理工作流 清华系团队星工聚将完成数千万天使轮融资,轮式机器人拿下头部制造企业亿级大单 Pretext.js 绕过 DOM 布局重排,实现 120 FPS 的高级交互体验 靠“AI 云”爆红的 Vercel,栽在一个第三方AI工具手里!IPO前夕遭黑,200万美元赎金谈崩? 高能研讨会|端侧 AI 正在重写实时感知效率上限_AI&大模型_王玮_InfoQ精选视频 2050大会看这篇就够了|报名、交通食宿指引大全 Java 近期资讯:OpenJDK JEP、Jakarta EE 12、Spring Framework、Micrometer、Camel、JBang 金融智能的架构编排:基于 Snowflake Cortex Agents 实现结构化与非结构化数据统一分析 | 技术实践 在AK大神爆火的任务里,摸清国产AI真实水平 百灵Ling-2.6-flash 正式发布:高 Token 效率,以 1/10 消耗实现 SOTA 级 Agent 能力 当 PM 懂AI,当技术懂产品:AI 时代产品力的双向进化|PM x AI产品力领航者大会即将开幕 为 AI 智能体设计记忆机制:揭秘 LinkedIn 的认知记忆智能体 获奖名单公布|2026主题征文第一期|分享你最有价值的龙虾场景与核心 Skill_热门活动_InfoQ写作社区官方_InfoQ写作社区
Fable 5 的杀手锏不是写新代码,是迁移、重构、收拾烂摊子
Tina · 2026-06-15 · via InfoQ - 促进软件开发领域知识与创新的传播

“用了一天,有点失望。”

Claude Fable 5 当然更强,也当然更贵,但我们更期待的是那种让人拍桌子的 aha moment。一个已经被反复抬高预期的开发者,很容易在新模型面前产生这种落差:就这?而且这么贵?但这种失望,可能也恰好说明了现在 Fable 5 的杀手锏场景,或许不是日常写代码。

榜单背书:发布一天,Fable 5 登顶

Anthropic 遮遮掩掩两个月的“神话” Mythos,终于在 6 月 10 日发布了。这一次,它把自家有史以来最强悍的大模型旗舰拆成了两个版本:Claude Fable 5 与 Claude Mythos 5。

按照 Claude 官方的说法,Fable 5 是一个“Mythos-class model”,也就是 Mythos 级别模型,但已经被处理到足够安全,可以面向普通用户开放。官方还强调,这是 Anthropic 迄今为止向公众开放过的最强模型,能力超过此前任何一个面向大众可用的 Claude 模型。

Claude 官方还补充说:“在几乎所有测试基准上都达到了 SOTA,尤其在软件工程、知识工作、科学研究和视觉方面表现突出。任务越长越复杂,Fable 5 领先其他模型的幅度就越大。”

昨天发布,今天就有第三方榜单跟进,Fable 5 很快拿到了它该有的排面。在 Arena.ai 最新的榜单中,Fable 5 一举登顶。

这份榜单把模型的智能体表现拆成五个维度来看。Fable 5 最突出的地方,恰恰落在其中两个最接近真实使用体验的指标上:一个是“用户确认任务完成率”,达到 18.2%;另一个是“好评与投诉比”,达到 30.6%。

用 Arena.ai 的话说,Fable 5 在这两项指标上“以前所未有的优势领先于 Opus-4.8 和 GPT-5.5。”

这两个指标比单纯的跑分更值得注意,因为衡量的是在真实任务中,模型到底能不能把活干完,以及用户是否认可它交付出来的结果。

再看单项能力,Fable 5 也登上了 Code Arena 和 Text Arena 两个榜单第一。尤其是在编码相关评测中,它在前端对决中取得了 72% 的胜率,并最终拉开了 98 分的分差。

但榜单归榜单,真实使用里还有另一种声音:“用了一天,一个 aha moment 都没用出来”。如果 Fable 5 只被当作一个日常写代码的助手,它很可能永远不会让人觉得值回票价。既然如此,最该看的就不是跑分,而是有没有真正让人觉得值的案例。

一个更苛刻的场景出现了

有人直接把一个拖了几个月都不想碰的重构任务扔给了 Fable 5,要求它一次性搞定。更狠的是,这个仓库连测试都没有。对方只留下一句话:“这才是真正的测评。”

这种极端场景指向的,显然不是日常写代码,而是软件工程里那些真正的硬骨头:长期拖延的重构、没人敢轻易动的旧仓库、缺少测试保护的遗留系统,以及一旦改错就可能牵出一串问题的复杂依赖。

虽然有不满意的地方,但他的评价是“比任何模型更接近目标”。

官方给出的第一个典型案例,也是这个路数:Stripe 在一个 5000 万行 Ruby 代码库中完成全库迁移。这个工作如果让工程团队手动推进,原本要两个多月,而 Fable 5 只用了一天。

Anthropic 还在官方介绍中声称 Fable 5 的 token 使用效率也高于以往的 Claude 模型:在 Cognition 的 FrontierCode 评测中,Fable 5 即便只以中等推理强度运行,也在前沿模型中取得了最高分。FrontierCode 用来测试模型能否完成高难度编码任务,同时达到高质量生产级代码库的标准。

另一个案例来自一位偏后端的开发者。

他提到,像他这样更偏后端的人,最近不得不认真学习什么才是好的前端代码。原因是前端更容易被 vibe code,因为效果直接可见,界面能跑起来,代码质量却可能更快滑坡,回归问题也更容易进入结构不好的代码库。React 看起来容易上手,但真正写好它,需要很深的心智模型。

这一次,他把 Fable 5 用在了团队里最老、最乱的一段 React 代码上,做了一次 +5000/-5000 级别的重构,理顺了很多纠缠在一起的东西。

他的目标很简单:把代码清理干净,然后看在更少引导的情况下,Fable 5 自己会怎么做。

一开始,他让 Fable 5 重构 $sessionId 页面和根组件,直到它足够干净,并且控制在 500 行以内。随后,他又让它重构 $taskId 页面和根组件,同样要求干净,并控制在 500 行以内。

接下来,他连续用了几次非常短的提示词:“make it cleaner”,也就是“让它更干净”。

也就是说,他不是一开始就给出完整重构规范,而是先用“clean”“cleaner”这种模糊目标,观察 Fable 5 的默认取向。

整个过程持续了大约两个小时。他一边浏览 diff,一边每隔大约 20 分钟排入更多消息,直到最后,队列里一直保持大约 5 到 7 条指令。

在这个过程中,Fable 5 确实理顺了不少东西。他的总体评价是满意,“总体来说,我非常满意,之后还会继续这样用,也会把它用到技术栈的更多部分。”

而且从目前结果看,这个 diff 似乎没有引入回归问题,但他还在结合手动测试和浏览器自动化继续验证。

不过,他也提到,Fable 5 做出的决定里,他大概认可 80%。另一些决定让代码变得更复杂。

比如,Fable 5 引入了 React Context,隐藏了复杂性,但让程序更难推理。它还做了一些看起来聪明的处理,比如用展开语法减少总行数,但并没有真正减少或简化底层数据结构。

后面,他开始给出更明确的方向,例如移除不必要的 useEffect、减少 prop drilling,以及调整状态管理方式。随着重构推进,他不断根据 diff 补充新的要求,让 Fable 5 朝着自己认可的代码结构继续演化。最后,他还让 Fable 5 生成了一份可视化的重构说明,用层级结构展示整个改造过程,方便后续阅读和审查。

有开发者对此评论说:“同意。今天我用它做了一些重构,虽然过程中需要手动引导,但最终效果非常好。”

从零开始的能力

除了重构,也有人把 Fable 5 拿来测试从零生成应用的能力。

一位开发者说,他衡量新模型的一个标准,是看它能多准确地复刻自己日常使用的应用和软件。于是,在过去大约 20 个小时里,他不断给 Fable 5 扔提示词,想看看它从零开始到底能做到什么程度。

结果是,Fable 5 做出了 Figma、Screen Studio、Obsidian 和 Notion 的高完成度克隆版本,视觉上几乎可以做到逐像素接近。他的感受是,这次能力提升带来的跃迁感,类似于 Opus 4.5 相比更早模型的那一跳。

更有意思的是,这些 demo 并不依赖复杂的提示工程。提示词可以很基础,但信息量很大,把需求、风格、目标以及各种细节一次性塞进去,然后看 Fable 5 如何拆解、规划并执行。有人问他,做这些测试任务时,是不是有一套更复杂的 setup,还是简单说一句“clone Notion”。他的回答是,提示词基础到有点不好意思,但确实有效。

比如他让 Fable 5 做 Notion 克隆时,提示大意是:构建一个 Notion 的克隆版,不要问我任何问题,尽你所能把它做得尽可能好,并且在每个维度上都尽量接近 Notion,尤其是设计。

这个 Notion demo 大约 30 分钟一次生成完成,用的是 Fable 加 Devin。

https://x.com/dabit3/status/2064732712389227005

这类案例也指向了“个人软件”的趋势:无论是做一个熟悉工具的轻量替代品,还是改造现有工作流,门槛都在快速降低。他认为,很难再说个人软件时代还没有到来,而且接下来只会变得更容易、更快、更好、更便宜。

贵,也是真的贵

如果说前面的案例证明了 Fable 5 的能力,那么另一边,早期用户最集中的抱怨也很明确:它确实更强,但也确实更贵、更容易烧穿额度。

Fable 5 现在面向 Claude Pro、Max、Team 以及按席位计费的企业订阅用户开放,也可以通过 API、Microsoft Foundry、Amazon Bedrock 和 AWS 上的 Claude Platform 使用。按照 Anthropic 的定价,Fable 5 的 API 价格是每百万输入 token 10 美元、每百万输出 token 50 美元。

更麻烦的是,当前这套使用方式并不会一直持续。6 月 22 日之后,用户访问 Fable 5 需要消耗 usage credits。Anthropic 给出的解释是容量限制。换句话说,这不是一个可以随便拿来狂跑的模型,至少在当前阶段,它的成本和额度都会很快变成体验的一部分。

社区里的早期反馈也基本围绕这个矛盾展开:它更好,但烧得太快。

有人在 Hacker News 上说,Fable 5 在 high 档位下的结果,明显好过 Opus 4.8 的 xhigh 档位。他的体感是,Fable 5 更聪明,虽然更贵,但效率也更高,还能找到一些 Opus 没发现的 bug。Reddit 上也有人表达了类似看法,认为 Opus 4.7 和 4.8 里一些负面特征,在 Fable 5 上要么消失了,要么被控制住了。

真正让用户不爽的,是它的消耗速度。

在社区论坛里,一个正在形成的共识是:Fable 5 的可用窗口可能非常短。即便是被它能力惊艳到的用户,也承认它烧额度的速度很快。有 Max20 计划用户说,自己看着使用量几乎以每分钟 2% 的速度上涨;作为对比,同样类型的工作,他过去用 Opus 4.8 从来没有接近过额度上限。

类似反馈还有不少。有人说,几分钟内,自己的 5x Max 账号从 0% 直接涨到 43%;也有人说,45 分钟就烧完了整个 20x Max 计划;还有人说,第一次测试 prompt 的五小时会话,就消耗掉了每周 Max 额度的 20%。

这也回到了开头那种“没有 aha moment”的落差:如果把 Fable 5 当成一个日常 coding assistant,它可能很难让所有人立刻觉得惊艳;但如果把它放进长程任务、复杂重构、代码迁移和个人软件生成这些场景里,很多反馈就能解释得通。

Fable 5 越强,越不该被拿去做低价值的小修小补。它真正适合的,是那些值得花钱、值得烧额度,也值得让模型长时间跑下去的问题。

参考链接:

https://x.com/roerohan/status/2064795304306901399

https://x.com/dexhorthy/status/2064747631885398231

https://www.reddit.com/r/ClaudeAI/comments/1u1cvkc/fable_5_is_insanely_good_but_watch_your_usage_i/