同样 3 个任务， Codex 12.5 美金、我们 4.5 美金，质量还打平 Claude Code —— 开源 Agent 满月战报

V2EX

家有老人，看电视直播有啥软件净水器有没有必要按时更换滤芯 Draw io 之类的画图工具是不是非常有必要? cursor 的次数套餐以后应该都用不了新模型了 copilot 更新了 Claude code cli? openrouter 使用国外模型 V 站为什么不能进行回复互动？买了咸鱼低价 Gemini pro，账号差点被盗。突然发现国内诈骗成本为零 hermes session 会话标题是不能自定义的吗？爱上合租妹子 5 - 掰指头看甜蜜蜜感觉职场对新人会越来越不友好中转站三步曲看看你的中转站到哪一步了现在还有人倒腾 NDS/NDSi 和烧录卡吗？未来会靠 token 活着吗？ Gemini 手机版客户端登陆总是在此国家/地区无法使用 gemini APIv2 新增置顶主题接口 ⛽ RootFlow AI — Opus 4.7 重磅上线，限时福利 [加群领 10U 额度评论留 ID 再发 5U] IOS 版本 Telegram 原生支持中文了？一个 Hacker News 命令行工具（CLI）感觉 gpt 这些低价渠道要爆了 hermes-agent 使用场景是什么，真的有人常用吗 token 可以被保存吗？独立开发｜做了个「情簿子」小程序，解决人情往来记账痛点，无广告无套路 claude code 和 codex 在 vibe coding 还有质的区别吗？买了台新的 air m5，感觉触控板明显不如 m1 顺滑，有办法解决吗？阿里 Coding Plan 一天三变， Lite 版本到期不能续费了 [抽奖/支付现金红包] 因为收藏夹太乱太杂，所以我花了半年做了一个产品社区：产品派 RAG 难以让人满意啊 2026 年了，这个世界还存在互联网精神🥹 [2026 年 4 月]当前哪一家的 token 输出最快?被 minimax/glm 折磨疯了?现在哪一家反应能稳定一些? Codex 这个申请权限的交互好有意思两个账号阵亡，尼区 Claude Pro 订阅租房之旅-感觉这次很幸运 GPT Plus 1 个月， 18 元包质保分享下最近低价 GPT Codex 的来源(源头) 手搓宝宝监护器 OpenAI 发布 Codex 重大更新：支持自动操作电脑与长期任务自动化移动下场了。免费送一个月 coding Plan（3w 次调用）试着把个人博客转成小程序，结果腾讯审核不让过，说有信息资讯？我把 Claude Opus 4.7 的 HN+V2EX 吐槽贴扒了一遍，发现了一些有意思的东西使用 claude 从 0 开始开发一个校友会系统可行吗做了个 iOS 成语填字 APP，送 50 个终身会员 [送码]多角色沉浸式听书 app, 送 20 个订阅，注册留邮箱即可 typeC 转 USB 的转换头有质量差异吗继续启动！全程质保的 gpt plus！中年程序员副业的第四天同一个 appleid 可以给不同 chatGPT 账号订阅 plus 吗？自动驾驶项目开发建议 AI 大模型明星项目｜诚聘 Data Engineer & Web Scraping Engineer（新加坡｜可办签证｜代发） setapp 这是啥意思，放进来还要收钱？终于, 降智几天之后, opus4.7 出来了自己开发了个 VSCODE 扩展，可以接入自定义的模型，并且可以导出 Copilot 的聊天列表到其它设备上导入 Claude 这对吗某鱼上 codex 的价格这么便宜是否有猫腻？ 🎉 Claude Opus 4.7 来啦～大家体验下来如何？让 ai 重写了整个 git 的历史，强迫症被拯救了 [分享创造] 写了个自托管的 Chrome 同步服务器，书签密码再也不经过 Google 快讯， Claude Opus 4.7 已经可以使用。我把 Karpathy 的 LLM + Obsidian 知识库方法论落地了，跑了一周数据超出预期 Opus4.7 来了，网页版先上，桌面版本客户端暂时未看到程序员历时一年转型成功的一些思考花露水电商专供和线下有区别么各位想本地部署大模型的看过来, 有台电脑想转让, 具体请查看截图, 价格请自己开价 OpenAI 最新图片模型 GPT-image-2 已经发布，快来 gptimage-2.co 免费体验吧这样用 ClaudeCode 怎么样？一行命令检测 VPS 能否访问 Claude API（含实际请求测试） cursor 按次数套餐用不了 opus4.7 呢 pixel og 充不进去电之前 5 年没使用了,怎么办啊浅试了一下 Qwen3.6-35B-A3B，很强忽然想我爷了天翼云 glm5.1 codingplan 官方玩不起，强制终止用户的包月续订我用 AI 写代码，但终端管理反而成了累赘——于是我做了 codux [调研] 各位在公司都用什么 ide 和 agent 写代码？过 seekingalpha 的 PerimeterX 在北京泡到了性价比超高的私汤温泉！美国号码除了美区 PayPal 绑定应用商店、美国相关的账户，还有什么必须使用的用途吗？ V2EX › 登录 jptimagine2.com llms.txt [送码]做了个 Cloudflare 监控 App - FlareKit，送点兑换码（真实性待验证）关于低价 GPT 账号怎么来的苹果即将推出 A19pro 芯片的小主机 Mac Neo，是真的吗？ Telegram 倒计时目标推送机器人 V2EX › 登录 openclaw 都谁在用啊，我感觉是真的太难用了丹麦国别域名（.dk）政策变更目前付费订阅 chatgpt Plus 的最佳方式是什么？ Weeko 更新了 CLI 和 Skills —— 一个给人类和 AI 同时使用的稍后读工具搞了个资源分享站: pantashare.com 老运维 share 一个运维平台别再写 Selenium 了！这个 AI Agent 一条命令搞定浏览器自动化搬瓦工后台大家能打开吗？ DESIGN.md 被反诈拦截自家茶叶 26 年新茶上市，评论抽奖新电脑 brew install node 之后，一个小设置可以提升对供应链投毒的防御最近看了下阿里云国际站 OSS，感觉比较适合文件多一点的网站！看到有公司考核 token 指标，很好奇大家上个月的 AI 账单是多少狗东上的特价自营榴莲线报，有兴趣的可以上车 [顺德/上海] 前端开发工程师（工业软件方向）- 磁悬浮运动控制做了一个 SVG 在线工具站： svg-to-code.com GLM-Coding 调用持续报错： z.ai 的 Lite 套餐几乎无法使用，官方 Pro/Max 是否稳定？ Solana 上可以买到 Anthropic (Claude) 的未上市的股票

yafeilee · 2026-06-12 · via V2EX

开帖先扔个福利（也是写这帖的由头之一）：

我们官方推荐的模型服务商 OpenClacky AI Keys 这两天上新 + 搞活动——

claude-fable-5 上新，已经能直接用了；
Gemini 全系限时 8 折：庆祝 gemini-3.5-flash 等三款新模型上线，调用即享、不用手动开。AI Keys 本身就是按模型官方价结算、不加价，只收 5% 通道费，叠完这波是真香。

好，正题。

一个月前我在 V2EX 发了第一帖，今天它满月了

一个月前我发过一帖：《同样 3 个任务他们 30 美金我们 5 美金 —— OpenClacky 1.0 发布，最省 Token 的开源 AI Agent 》

那帖底下有几位老哥的反馈，我憋了一个月：

"省是省，可你这开源的，效果真能跟 Claude Code / Codex 比？便宜没好货吧。"

这话我服气。说实话，很多人——包括一个月前的我自己——心理上都默认 Codex 和 Claude Code 才是天花板。它俩确实强，这不丢人。

但"便宜没好货"这五个字，作为一个开源项目的作者，听着是真不舒服。所以这一个月我没光顾着抠 Token ，专门组织了一场同台 benchmark ，就为了堵这句话：开源的、省钱的，到底配不配跟那两位坐一桌。

今天满月，把这个月攒下的真实数据全摊开，欢迎来拍。

先自报家门：OpenClacky ，一个 100% 开源（ MIT ）、BYOK 的 AI Agent 。 注意，不是"coding agent"——它是个通用 Agent：写代码只是其中一项，更多人拿它跑「周会录音转写 → 按负责人拆成可执行任务」「每天定时联网做行业摘要」「接到飞书群里当机器人」这类活。所以下面这场 benchmark ，任务也是按"通用"来设计的，不是单纯比谁代码写得好。

用用户的一句话来说：OpenClacky 可以完全代替各类 Agent ，不是平替是代替，尤其试试 webui ，比用飞书控制好用太多了，token 只有原来的 1/5 ，而且里面有写代码模式，这个可平替 ClaudeCode 和 codex 。

我们让 OpenClacky / Claude Code / Codex（各配自家主流模型：前两家 claude-4.6-sonnet ，Codex 配 gpt-5.5 ）跑完全一样的三个真实任务，同一时间段、同样输入、各家默认配置不调优、独立 API Key 分别计量、逐请求账单不估算、单次跑不复跑挑结果。

三个任务故意不挑纯代码题，覆盖"通用 Agent"该干的活：

供应商初筛汇报 —— 给 10 份供应商沟通纪要 docx + 筛选要求，产出一份能直接拿去汇报的初筛建议文档；
AI 行业日报 —— 联网调研近 3 天 AI 动态，产出一份 HTML 简报；
个人作品集网站 —— 给简历素材 + 需求文档，产出一个完整的多页网站（ HTML/CSS/JS ）。

看结论

看账单

先说质量，因为"便宜"最怕的就是"降质"

测评人员一手逐项打分，结论是：OpenClacky 与 Claude Code 同属第一梯队，三个任务双双高质量完成；而且在直观性、排版字体与动效上，OpenClacky 还略胜一筹。

供应商汇报：OpenClacky 的材料最直观、AI 味最轻，"给人看的汇报"这个目的达成度最高； Claude Code 评估维度更全、给的标准更多（这点它更细）； Codex 格式出了问题，AI 味重。
AI 行业日报：OpenClacky 呈现最直观、人机味最轻； Claude Code 页面 AI 味偏重； Codex 居中。
作品集网站：OpenClacky 和 Claude Code 都高质量完成、风格相近，OpenClacky 文字/字体/动效略好；Codex 这一局整体不能用——主页排版一般，还反复陷入「截图→屏幕识别→自检」死循环，一个静态 UI 本不需要反复自检，它越检消耗越大，检完效果还垫底。

一句话：质量这关，开源的我们站住了，不是"凑合能跑"，是真同台、甚至细节略胜。

再说钱，这才是主场

合计总花费（ OpenRouter 逐请求账单核算）：

Agent	任务总花费	相对 OpenClacky
OpenClacky	$4.50	1×
Claude Code	$4.50	打平
Codex	$12.54	2.8 倍

翻译成人话：

跟 Claude Code 打平——同模型、同质量、同样 $4.50 。开源 harness 和 Anthropic 第一方工具，账单一分不差。
Codex 花了 2.8 倍——而且效果还三家垫底。它那 $12.54 里有 **$8.61 全烧在作品集那个"自检死循环"上**：单任务发了 126 个请求（ OpenClacky 才 42 个），prompt 总量 10.5M token 。账单曲线和录屏里的循环完全对得上。

质量同台、价格打平天花板、比 Codex 省掉将近三分之二。便宜，但有好货。

完整 benchmark （每个任务的交付物预览、全程录屏、逐请求账单 xlsx 原件，全部可下载复现）：

https://www.openclacky.com/benchmark/vs-claude-code-codex

凭什么能省这么狠？这个我上个月写过了，感谢 V 友的厚爱，130 个赞

肯定有人要问："质量打平还能比 Codex 省 2/3 ，靠什么？砍功能？用便宜模型凑？"

都不是。核心是 harness 层的缓存工程——我们的缓存是模型无关的，你接 Claude 、Gemini 、DeepSeek 还是混着用，缓存照常生效；而 Claude Code 那套缓存**强绑定它自家模型，一换第三方模型，命中率直接掉到 0%**。

这不是我嘴说。上面那场 benchmark 我们还做了组对照：三家全换成 deepseek-v4-pro 重跑——OpenClacky 照常完成全部任务，$1.30 搞定；而 Claude Code 有两个任务缓存命中率直接 0.0%。harness 不绑模型的价值，这里一目了然。

这事我上个月专门写过一篇技术贴扒得很细，承蒙各位抬爱，130+ 赞：

Harness 工程分享：我们怎么把 LLM Agent 的 prompt cache 命中率做到 90%+

那篇讲透了原理，这帖就不重复占篇幅了。一句话总结：我们省的不是偷工减料，是工程复利。 想抠原理的去看上一篇，那才是这套省钱的发动机。

运营一个月，全网真实数据

benchmark 是我们在受控环境跑的，可能有人觉得"挑过场子"。那就上全网所有用户的匿名遥测——这部分我们挂在官网首页、每小时自动更新，谁都能去看：

昨日全网处理 Token：8.76B （ 87.6 亿）
累计完成真实任务：492,433 个
近 7 天全网实测缓存命中率：94.9%

第三条是关键：94.9% 不是单一模型在实验室刷出来的，是全网用户混着各种模型、各种真实任务跑出来的平均值。 同类 Agent 普遍在 60–70%。命中的 Token 厂商只收约 10% 的价——这就是"省"在真实世界里的样子，不是 PPT 数字。

实际上，DeepSeek/MiMo 已经将 API 缓存命中价格调成了 1%，接下来会有越来越多的厂商会跟进，我预测大量的 LLM 厂商都会优先 API 服务调用。Claude Fable 5 也宣布 2 周后从订阅版移除。

缓存命中是考察的一个 AIAgent 最综合的 Harness 工程力，OpenClacky 将其做到了极致。

不是我们王婆卖瓜，听听用户怎么说

以下都是用户公开或授权发布的真实评价，原话没动：

"同一个项目写了 3 个小时，跟 Hermes 对比节约了 8 倍 Token 。安装不到 100M ，Hermes 要 48G 。用了之后才发现多 Agent 好鸡肋。现在跨境电商全员都在用。" —— 某跨境电商负责人（从 OpenClaw / Hermes / Copow 一路试过来，3 周后团队全员切换）

"Codex 用了最贵的模型半小时没解决的问题，OpenClacky 用 kimi-k2.6 解决了。Windows 配置也很友好。" —— 熊 Bear ，AI Native 创业者

"It takes so much trial and error to arrive at the simplest design. You did it. This is the brilliance, clarity and elegance of ruby brought to agentic tooling. I'm blown away." —— Mihail Paleologu （ Solo founder ，2012 年起就爱 Ruby on Rails ）

有些朋友一人使用还不满足，还帮安利大量新朋友。

还有许多代码贡献者给 OpenClacky 做了很多使用场景上的打磨：

例如 Leihb 为核心 Agent 稳定性提供了几项关键 PR ，cnnorain 为产品场景贡献了不少体验改进，计费系统都是他一手完成。还有朋友正在提供一个全新的 TUI 架构，目前已将内核合入。在此感谢，也欢迎更多朋友们参与贡献。

一个月，产品成熟度上了一个新的台阶，还在观望的朋友可以大胆上车，立刻节省你的 Token 账单

从 4/26 第一个 beta 到 6/10 的 v1.2.16 ，一个半月 22 次发布（ 6 beta + 16 stable ），306 commit ，每次都有 Added/Improved/Fixed 结构化 changelog 。

三条主线：

① 渠道全覆盖：Telegram （ v1.0.5 ）→ 钉钉 Stream Mode WebSocket （ v1.1.0 ）→ 微信 SendQueue 批量节流防限流（ v1.1.1 ）→ 飞书 OAuth 自动建应用（ v1.2.11 ），尤其是微信和飞书的稳定性体验拉满。

② 平台基建：v1.2.0 同一天上了 MCP 外部支持（全新零 Token 成本架构）、USD/CNY 双币种计费、会话回收站软删除恢复。

③ 扩展框架：v1.2.8 加了 shell hooks + patching 插件体系，不改核心代码就能拦截工具调用、自定义渠道适配器。再不用担心 AI 把自己的核心改出问题了。

还有更多：Session forking （ v1.2.13 ）、扫描件 PDF OCR （ v1.2.14 ）、WSL/Docker/国内 CDN 镜像、模型跟进到 Claude Fable 5 。

目前的 webui 体验我真是爱不释手，随时随地开 session 、自动记忆、自动空闲压缩、视觉能力、生图、生视频多模型组合也让 OpenClacky 在各种场景发挥作用。

办公场景，复杂 PDF 阅读也不在话下，连接浏览器也是内置优化方案，无须插件支持，稳定性高，自动复用你的 session ，好用易用。

最后

没有别的福利哈，我们是一个工程技术团队，只想把最好的产品带给大家，免费开源，大家帮我们传播就是对我们最大的鼓励。

下周我们也会针对国产的 Agent 的任务完成能力和成本做横向测评，想看到哪些的表现可以评论区告诉我，敬请期待。

GitHub 求 Star：github.com/clacky-ai/openclacky —— 100% 开源（ MIT ），目前 958 star ，欢迎 star 。

BYOK：自带任意模型的 key 就能跑；嫌配 key 麻烦的，开头说的 ** OpenClacky AIKeys** 一个 key 通吃 Claude / Gemini / DeepSeek ，正好赶上 Gemini 8 折。

我们的愿景：成为 Agent 界的蜜雪冰城，效果也配跟天花板坐一桌。

一键安装： https://www.openclacky.com/#install

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

V2EX

一个月前我在 V2EX 发了第一帖，今天它满月了

先说质量，因为"便宜"最怕的就是"降质"

再说钱，这才是主场

凭什么能省这么狠？这个我上个月写过了，感谢 V 友的厚爱，130 个赞

运营一个月，全网真实数据

不是我们王婆卖瓜，听听用户怎么说

一个月，产品成熟度上了一个新的台阶，还在观望的朋友可以大胆上车，立刻节省你的 Token 账单

最后