




















1 mxT52CRuqR6o5 2 天前光靠 goal 不是能完全解决做没做完,还得加上目标可验证 |
2 xuyang2 2 天前> MiMo Code + MiMo-V2.5-Pro outperforms Claude Code + Claude Sonnet 4.6 across all three evaluations. 为啥不放跟 Claude Code + Claude Opus 4.6 的对比 |
3 shunia 2 天前@mxT52CRuqR6o5 #1 不知道怎么验证不也可以问 AI 吗? |
4 hidemyname 2 天前@xuyang2 #2 在编程上别说 mimo 2.5pro 和 opus 对比了,你让 glm 5.1 和 qwen 3.7 max 比比试试,吹的飞起,用起来还是比不过; |
7 shunia 2 天前它这个 blog 写的意外的好,言简意赅,只不过越往下读 AI 味儿越重,笑死个人。 |
8 FantaMole 2 天前从它这个跑分来看 Mimo Code + 2.5 Pro 和 Mimo Code + 2.5 没有拉开本质差距啊,工程化做的有这么好? |
9 tf2 2 天前@FantaMole 原文 需要说明的是,这些 Benchmark 衡量的仍是对单个仓库级问题的一次性解决能力。MiMo Code 的多数设计目标——多轮记忆、后台状态维护、完成度验证、跨 session 进化——主要体现在持续几十轮的真实开发场景中,这些优势需要在实际使用中才能充分体现。 |
11 FantaMole 2 天前@tf2 就这个意思就让我觉得很...我抓不住他们的宣传重点在哪,意思是这个 Mimo Code 的 harness 做的很好,在长任务使用下即使自家模型不行,但仍能超越其他模型?还是能补齐能力较差的模型短板,让 V2.5 也能在普通任务赶超 V2.5 Pro ?但是这个 CLI 又不收钱,那我用 Sonnet 配 Mimo Code 岂不是无敌了,干嘛要用他们家的模型,能打出组合技吗 |
12 tf2 2 天前@FantaMole 你要从宣传的角度去理解,那直接输。。 我的理解就是 V2.5 pro 有的时候就是想得太多。V2.5 指令遵循比较强,有的时候反而更加反应快。 我现在是复杂问题分析给 pro ,写好 plan 就直接 v2.5 上手改 |
14 wkend 2 天前mimo 这几天用起来感觉还不错,改错的时候就给你解决错误,基本不会产生新问题,把送的 token 用完了,买了字节的方舟 plan ,试了试 kimi ,发现改错长生新问题的概率比 mimo 多,对代码动作比较大 |
16 kongkongye 1 天前@shunia #7 往下读着读着感觉不太对劲,像翻译 cc 的文章而来,差点以为是 cc 相关功能的中文翻译版了 |
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。