




















纯吐槽贴。太长不看:听不懂人话。
本贴接续 https://www.v2ex.com/t/1218023 ,因为上个帖子里有人说「不用 Codex ,模型性能当然差!你的抱怨都是无效的」,所以我最近换用了 Codex ,继续吐槽几个例子。
以下例子均使用:官网 GPT Pro 账号(让美国朋友帮忙注册的)+ 最新版 Codex + 开 xhigh (有思考过程) 。已用几个账号质量检测站检测过「是否是满血模型」,均为 100% 通过。
要求它「合并代码,先运行编译测试再 commit 」。我刚说完这句,还在 Skill 里特意强调了一遍。结果它改完代码什么都不跑、什么都不查,转头直接 commit 了。指令遵循能力令人汗颜。
要求它「把一个代码文件复制到另一个位置」。结果它不去调 cp 命令,硬是用 Write 工具,花了几分钟把一个几千行的文件用 LLM 逐字「复制」了一遍…… 不是,我的 token 是大风刮来的吗?
要求它「复现并研究一个用户 bug 报告」,报告大意是「启动应用时会正确跟随系统的颜色主题;但启动之后再改系统主题,必须重启应用才生效」。结果它写了个只测「应用启动时能否读取主题」的调试用例,跑完发现「启动时确实能读取主题」,就告诉我无法复现、然后放弃了。说人话就是,报告明明说「 A 场景正常、B 场景有 Bug 」,它却只测了 A 场景,发现正常(这不废话吗),就认定报告无效…… 这是智力正常的 LLM 能干出来的事?
这个在上个帖子里也提过。让它看一份 review 、和我讨论怎么解决,它直接自作主张,一口气「读完了 review 、研究了代码、挑了个自己喜欢的方案、还写好了 review 回复」。要不是我及时掐断,它都要调用 GitHub CLI 、以我的身份去回复别人了。另一次,要求它「读一份 bug 描述、定位代码问题」,结果它非要跟我讨论「这个 bug 报告的英文措辞不准,该怎么改」,就很……无语。
在另一个项目里三番五次强调「要用 uv run 和 pyproject.toml 管理依赖」。它就是不听,非要用 pip 、用系统 python 、用 conda 。再三要求改正,它输出道歉,却连自己刚写的「 uv pip 」都不去改成「 uv add 」。我不说,它就永远不改、也不会主动提醒我。上一个例子非要干没有要求它干的事,这个例子明明是它分内的事,它却什么都不问、不说、不做了。
心累啊。
至于「你怎么不装 Superpowers / 不用 XXX Harness / 不用 XXX 策略」,就这第一个例子,完全干净的上下文都能给我执行一半、丢一半,再多的 Prompt 感觉也没法补救这种例子了。
2 jinsongzhaocn 29 分钟前Anthropic 内部披露,没有 Skills ,Claude 在内部评测里的准确率不超过 21%;加上 Skills 之后,稳定冲到 95%以上,部分领域接近 99%。而且 95%的 Skills 还需要一直升级,否则甚至会掉到 65%。就凭这些信息,你还懒得折腾 skill ? |
3 Haku 28 分钟前用一下国产的,你就会发现确实很聪明 |
4 w568w 28 分钟前@jinsongzhaocn 唉唉。我当然用了 Skills 啊,我说「不用提这些」的意思,不是「我一个都没试过,我猜肯定不好用」,而是我全都试了一遍,情况没有改善…… |
5 w568w 27 分钟前@jinsongzhaocn 你真的认真读帖子了吗?就这第一个例子,你告诉我什么样的 skill 才能让它知道「当用户要求你做 A 、B 、C 的时候,你应该做 ABC ,而不是只做 C 」? |
6 canyue7897 24 分钟前op 是直接用追求目标模式还是开的 plan 模式?如果直接追求目标,可能会出现这种情况,遇到过跳过指令的情况,不过也没那么夸张。但是开了计划,按道理来说,不应该。 |
7 jinsongzhaocn 23 分钟前试试主动唤醒 skill ,先规划后执行呢?比如: |
9 w568w 22 分钟前@Haku 是的,我现在发现 GLM5.2 和 MiMo 2.5 Pro 都比 GPT-5.5 好用,至少 (1) 能听明白我想做什么; GPT-5.5 感觉有时候真的是小脑发育不完全了,逻辑关系都能弄错(测试 A 场景正常,认定 B 场景没事) |
10 canyue7897 22 分钟前我咋感觉你的降智了,你看看你的思考时间是多久?我的思考很少低于 5 分钟的。 |
11 jinsongzhaocn 21 分钟前有时候确实需要啰嗦很多它才会改方向,比如: |
12 w568w 19 分钟前@walkon 谢谢,我用了的。 我还可以再举一例:AGENTS.md 里有要求: - `find` or Glob or `glob` MUST be used with `-print0` and `xargs` must be used with `-0` to handle file names with spaces or special characters. MUST use `-xdev` to avoid descending into slow network filesystems. NEVER find or glob or search files without `-xdev`. 因为我们的项目里面挂载了网络文件系统,模型有时候喜欢直接全局搜索,会非常慢。 至今为止,GPT-5.5 遵从过这个指令 0 次…… 我觉得我这段话应该已经写得够清楚了,对吧 |
14 canyue7897 17 分钟前@w568w 你是不是写的东西太多了?本来上下文就 258K ,你如果用了 sub2api 之类的,而不是原生的话,真实推理没有多少 K ,那就只剩压缩了。工具调用都占用几十 K 的上下文。 |
17 qwerasdf123 16 分钟前看了你的两个帖子,感觉你的 gpt5.5 确实不正常,至于降智还是什么原因,需要具体排查一下 |
18 lmmlwen 15 分钟前你这个,还停留在上下文约束上面 |
19 w568w 14 分钟前@jinsongzhaocn 谢谢,你这里我有一点认同的,就是确实是需要啰嗦。 怎么说呢,感觉 GPT 在我这缺乏那种基本的逻辑思考能力,就像一辆不停撞墙的车,不出两轮对话就会把自己引到死胡同或者错误、疏漏的执行路径上。需要不停地手动 steer ,steer 完他才会正常几轮,然后又接着对着墙猛冲…… 如果多改正它几次,它就变得畏手畏脚,什么都不敢提、不敢问了,而且每轮对话里都要反复和我强调「我不会 xxx 、xxx 、xxx 」( xxx 是我前面改正它的内容),哭笑不得。 |
20 lscho 14 分钟前不明白什么场景怎么用的。。。在我的场景 GPT-5.5 + codex 比 cc + opus4.8 都好用 |
22 jinsongzhaocn 12 分钟前还有个可能是通过代理调用,结果代理给的是假冒的,代理是可以随意修改模型名称的。 |
23 w568w 8 分钟前@canyue7897 @qwerasdf123 @jinsongzhaocn 是的,降智是我现在最怀疑的原因,关键是:各种模型验证站都测不出来!发个帖也是看看有没有朋友遇到类似的问题。 我这里思考时间比较波动,有时候 10 分钟,有时候就一句话结束。但确实思考长的时候,主帖提到的情况会少一些。 我是直接用的官网账号,在模型验证站上测模型验证的时候,通过的是我自己的 AxonHub 。 @lscho 没有特殊场景,也没有加什么野鸡 skills 、或超长的 agents.md 、或用一个已经特别长的 context 不压缩,就是正常地下载 codex 、安装、登录,正常地提问和命令,就出现了这里提到的大部分问题了。 |
24 shineonme 8 分钟前 |
25 canyue7897 6 分钟前我是直接用的官网账号,在模型验证站上测模型验证的时候,通过的是我自己的 AxonHub 。你这个是 web 转 api 么?如果是,那 web 中间的很多工具调用你这个工具肯定不能完整模拟,很多都丢弃了,那你根本就是断断续续的得到信息,你直接用 codex 试试,不会出现你说的问题的。codex 还是很遵守指令的,有的时候过于遵守了,我都感觉没啥主动性。 |
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。