惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

S
Secure Thoughts
V
Visual Studio Blog
C
Check Point Blog
S
SegmentFault 最新的问题
GbyAI
GbyAI
WordPress大学
WordPress大学
Microsoft Security Blog
Microsoft Security Blog
S
Schneier on Security
The Cloudflare Blog
Microsoft Azure Blog
Microsoft Azure Blog
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
博客园_首页
Know Your Adversary
Know Your Adversary
The Hacker News
The Hacker News
Engineering at Meta
Engineering at Meta
Project Zero
Project Zero
U
Unit 42
小众软件
小众软件
Simon Willison's Weblog
Simon Willison's Weblog
Stack Overflow Blog
Stack Overflow Blog
P
Palo Alto Networks Blog
云风的 BLOG
云风的 BLOG
B
Blog
人人都是产品经理
人人都是产品经理
P
Proofpoint News Feed
A
About on SuperTechFans
Scott Helme
Scott Helme
C
Cyber Attacks, Cyber Crime and Cyber Security
宝玉的分享
宝玉的分享
E
Exploit-DB.com RSS Feed
L
Lohrmann on Cybersecurity
S
Security @ Cisco Blogs
C
CXSECURITY Database RSS Feed - CXSecurity.com
I
InfoQ
IT之家
IT之家
S
Securelist
Hacker News: Ask HN
Hacker News: Ask HN
博客园 - 叶小钗
MyScale Blog
MyScale Blog
博客园 - 聂微东
罗磊的独立博客
H
Heimdal Security Blog
T
Tor Project blog
Security Latest
Security Latest
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
G
GRAHAM CLULEY
O
OpenAI News
博客园 - Franky
T
Threat Research - Cisco Blogs
C
Cybersecurity and Infrastructure Security Agency CISA

V2EX - 技术

Local-first 软件收录站 从 X 上搬运来的白嫖 GPT Plus 教程 阿里云百炼 Coding Plan Pro 套餐 新增当日 token 限制 大家的 Claude 弹了 kyc 嘛 现在 Google 的 Gemini 和 AI 模式降智的厉害啊 用的 TAG 家的 T, ip 跳变是否影响使用 claude 同一 apple 账户能给不同 claude 账号充值么 做了个 Go 的 MCP Server 框架,一行代码把 Gin API 接入 AI - V2EX 请教各位,想回归技术,如何系统学习 Agent? OpenAI GPT-IMAGE-2 提示词合集 你是说, claude opus4.6 写代码的能力不如 gpt5.4? 关于智谱 Max 套餐要不要升级续费呢? App → CLI → App ? Github 账号被 404 了,现在没法恢复,求各位大佬指点 cursor 的次数套餐以后应该都用不了新模型了 - V2EX openrouter 使用国外模型 买了咸鱼低价 Gemini pro,账号差点被盗。突然发现国内诈骗成本为零 - V2EX Gemini 手机版客户端登陆总是在此国家/地区无法使用 gemini 感觉 gpt 这些低价渠道要爆了 claude code 和 codex 在 vibe coding 还有质的区别吗? 阿里 Coding Plan 一天三变, Lite 版本到期不能续费了 RAG 难以让人满意啊 2026 年了,这个世界还存在互联网精神🥹 两个账号阵亡,尼区 Claude Pro 订阅 分享下最近低价 GPT Codex 的来源(源头) OpenAI 发布 Codex 重大更新:支持自动操作电脑与长期任务自动化 使用 claude 从 0 开始开发一个校友会系统可行吗 同一个 appleid 可以给不同 chatGPT 账号订阅 plus 吗? 自动驾驶项目开发建议 终于, 降智几天之后, opus4.7 出来了 自己开发了个 VSCODE 扩展,可以接入自定义的模型,并且可以导出 Copilot 的聊天列表到其它设备上导入 - V2EX Claude 这对吗 某鱼上 codex 的价格这么便宜是否有猫腻? 🎉 Claude Opus 4.7 来啦~ 大家体验下来如何? 让 ai 重写了整个 git 的历史,强迫症被拯救了 [分享创造] 写了个自托管的 Chrome 同步服务器,书签密码再也不经过 Google 快讯, Claude Opus 4.7 已经可以使用。 Opus4.7 来了,网页版先上,桌面版本客户端暂时未看到 各位想本地部署大模型的看过来, 有台电脑想转让, 具体请查看截图, 价格请自己开价 这样用 ClaudeCode 怎么样? 我用 AI 写代码,但终端管理反而成了累赘——于是我做了 codux - V2EX [调研] 各位在公司都用什么 ide 和 agent 写代码? 丹麦国别域名(.dk)政策变更 - V2EX 目前付费订阅 chatgpt Plus 的最佳方式是什么? 老运维 share 一个运维平台 新电脑 brew install node 之后,一个小设置可以提升对供应链投毒的防御 - V2EX 看到有公司考核 token 指标,很好奇大家上个月的 AI 账单是多少 GLM-Coding 调用持续报错: z.ai 的 Lite 套餐几乎无法使用,官方 Pro/Max 是否稳定? - V2EX 现在还有什么渠道可以稳定安全地使用 Claude 吗? Chatgpt Pro 用量用不完的可以开这些设置 字节为啥不出个国内版 Vercel? 我的硬盘 Memblaze Pblaze 5 Linux 下不识别,给 Linux 内核提交了补丁, AI 说有望被合并 - V2EX Claude Web 端貌似 claude-opus-4-7 偷偷上了? 现在 Apple 开发者帳號應該是用哪个地区会更好? - V2EX ChatGPT Pro 5x 套餐 量真的很足! chrome 最新的 147 版直接卡爆炸了 - V2EX 为什么厂家不在 skill/mcp 这类的工具中塞广告呢?这样不是可以大赚嘛? minimax 真是脸都不要了,工作日下午 14:00 定时开启 529,脸都不要了。训练模型居然占用用户使用时间 iTad 标签 扩展 加小动作 ? - V2EX 去年 H200 能买,不让买是代替快出来了? - V2EX AI 赛事通 - 2026 年 4 月中国区新增 AI 竞赛和黑客松汇总 - V2EX 现在安卓开发都在做啥 - V2EX 浏览器插件 沉浸式翻译 是不支持自定义模型了吗? - V2EX Codex 里的 GPT5.4 也能降智?上午让它改两个问题,改了一个小时了, plus 额度用了一半了还是没改好,和前几天用的体感完全不一样。要它改的问题也不复杂。服了。 目前有使用 claude code 的收到人脸认证的吗 - V2EX 分享一个自己做的 Nginx 管理工具,实时请求动态预览!(无奈市面上实在找不到好用的,自己撸了个) - V2EX claude code 崩了么? 今天在反重力上用 claude 一点都不丝滑,有同样的感受吗? opencode 消息周知插件 今天 claude opus 和前两天比,质的飞跃 - V2EX 999 包月价? - V2EX 一个版本, 50 项更新:我们几乎重做了整个播放页 本地大模型多大显存够用? GOGDNS 一款简易的私人 DNS 服务器 - V2EX API key (GLM) 怎么使用 claude code desktop ? Claude 这样订阅有问题吗 - V2EX 帮我爸找回了一篇赛博兰亭集序 求推荐稳定、高性价比使用 Claude Opus 4.6 的渠道/平台 搞个云端 claude code 防止 封号 - V2EX 用 Claude 要实名了,内地用户怎么办? OpenAI Plus 和 Team 都缩水了吗 海外 Android 手机有什么好用的国内第三方应用市场推荐吗 - V2EX 把电脑伪装成电视,用 DLNA 投屏拿到视频号直播流地址 - V2EX claude 认证莫慌 北京互联网法院有什么攻略么?起诉北京智谱华章科技股份有限公司退款可行么? - V2EX Claude 开始引入身份验证 求 vscode 做笔记软件的插件推荐 - V2EX 讯飞星辰的 Coding Plan 如何? Anthropic 宣布在 Claude 平台推行身份验证机制 科普一下低价 gpt 是怎么来的 有没有长期关注 Claude 的朋友,我建了一个 Channel 自动抓取 Claude Team 的推文 啃了那篇 54 页的 Agent Harness 综述, 给大伙讲个省流版 现在那家的 coding plan 还能买到 是不是最近会有什么更聪明的大模型要发布了呀? 用多了 AI 后,有没有觉得 AI 生成的文章有很强的既视感? 如何 实践 Harness 工程? 今日份 GPT 5.4 笑话 如何建一个自己的号池,让 cursor 真正实现 token 自由 写了三个月 Agent Harness,我终于敢让 Claude Code 全自动写代码了 感叹一下 GLM 5.1 真的强
GPT-5.5 真能让人用得舒心吗?怎么在我这跟弱智一样 - V2EX
w568w · 2026-06-15 · via V2EX - 技术

纯吐槽贴。太长不看:听不懂人话

本贴接续 https://www.v2ex.com/t/1218023 ,因为上个帖子里有人说「不用 Codex ,模型性能当然差!你的抱怨都是无效的」,所以我最近换用了 Codex ,继续吐槽几个例子。

以下例子均使用:官网 GPT Pro 账号(让美国朋友帮忙注册的)+ 最新版 Codex + 开 xhigh (有思考过程) 。已用几个账号质量检测站检测过「是否是满血模型」,均为 100% 通过

  1. 要求它「合并代码,先运行编译测试再 commit 」。我刚说完这句,还在 Skill 里特意强调了一遍。结果它改完代码什么都不跑、什么都不查,转头直接 commit 了。指令遵循能力令人汗颜。

  2. 要求它「把一个代码文件复制到另一个位置」。结果它不去调 cp 命令,硬是用 Write 工具,花了几分钟把一个几千行的文件用 LLM 逐字「复制」了一遍…… 不是,我的 token 是大风刮来的吗?

  3. 要求它「复现并研究一个用户 bug 报告」,报告大意是「启动应用时会正确跟随系统的颜色主题;但启动之后再改系统主题,必须重启应用才生效」。结果它写了个只测「应用启动时能否读取主题」的调试用例,跑完发现「启动时确实能读取主题」,就告诉我无法复现、然后放弃了。说人话就是,报告明明说「 A 场景正常、B 场景有 Bug 」,它却只测了 A 场景,发现正常(这不废话吗),就认定报告无效…… 这是智力正常的 LLM 能干出来的事?

  4. 这个在上个帖子里也提过。让它看一份 review 、和我讨论怎么解决,它直接自作主张,一口气「读完了 review 、研究了代码、挑了个自己喜欢的方案、还写好了 review 回复」。要不是我及时掐断,它都要调用 GitHub CLI 、以我的身份去回复别人了。另一次,要求它「读一份 bug 描述、定位代码问题」,结果它非要跟我讨论「这个 bug 报告的英文措辞不准,该怎么改」,就很……无语。

  5. 在另一个项目里三番五次强调「要用 uv run 和 pyproject.toml 管理依赖」。它就是不听,非要用 pip 、用系统 python 、用 conda 。再三要求改正,它输出道歉,却连自己刚写的「 uv pip 」都不去改成「 uv add 」。我不说,它就永远不改、也不会主动提醒我。上一个例子非要干没有要求它干的事,这个例子明明是它分内的事,它却什么都不问、不说、不做了

心累啊。

至于「你怎么不装 Superpowers / 不用 XXX Harness / 不用 XXX 策略」,就这第一个例子,完全干净的上下文都能给我执行一半、丢一半,再多的 Prompt 感觉也没法补救这种例子了。

  • 指令
  • 逻辑
  • 缺陷

    25 条回复    2026-06-15 15:53:50 +08:00

    jinsongzhaocn

    2

    jinsongzhaocn      29 分钟前

    Anthropic 内部披露,没有 Skills ,Claude 在内部评测里的准确率不超过 21%;加上 Skills 之后,稳定冲到 95%以上,部分领域接近 99%。而且 95%的 Skills 还需要一直升级,否则甚至会掉到 65%。就凭这些信息,你还懒得折腾 skill ?

    Haku

    3

    Haku      28 分钟前

    用一下国产的,你就会发现确实很聪明

    w568w

    4

    w568w      28 分钟前

    @jinsongzhaocn 唉唉。我当然用了 Skills 啊,我说「不用提这些」的意思,不是「我一个都没试过,我猜肯定不好用」,而是我全都试了一遍,情况没有改善……

    w568w

    5

    w568w      27 分钟前

    @jinsongzhaocn 你真的认真读帖子了吗?就这第一个例子,你告诉我什么样的 skill 才能让它知道「当用户要求你做 A 、B 、C 的时候,你应该做 ABC ,而不是只做 C 」?

    canyue7897

    6

    canyue7897      24 分钟前

    op 是直接用追求目标模式还是开的 plan 模式?如果直接追求目标,可能会出现这种情况,遇到过跳过指令的情况,不过也没那么夸张。但是开了计划,按道理来说,不应该。

    jinsongzhaocn

    7

    jinsongzhaocn      23 分钟前

    试试主动唤醒 skill ,先规划后执行呢?比如:
    /superpowers:brainstorming <跟上你的 md 文件名和说明>
    或者 mattpocock-skills 的 /diagnose , /tdd

    w568w

    9

    w568w      22 分钟前

    @Haku 是的,我现在发现 GLM5.2 和 MiMo 2.5 Pro 都比 GPT-5.5 好用,至少

    (1) 能听明白我想做什么;
    (2) 自己不明白的东西,知道要先问我;
    (3) 没有要求它做的,绝对不做;
    (4) 有基本的逻辑思维。

    GPT-5.5 感觉有时候真的是小脑发育不完全了,逻辑关系都能弄错(测试 A 场景正常,认定 B 场景没事)

    canyue7897

    10

    canyue7897      22 分钟前

    我咋感觉你的降智了,你看看你的思考时间是多久?我的思考很少低于 5 分钟的。

    jinsongzhaocn

    11

    jinsongzhaocn      21 分钟前

    有时候确实需要啰嗦很多它才会改方向,比如:
    UI 调试:`playwright-cli open http://127.0.0.1:8069/ --headed`, 注意有-cli 后缀, 不是 playwright.在 Playwright 官方的最新的架构中,playwright-cli 和旧版的含义完全不同,它和 playwright/mcp 正好构成了 AI 浏览器的两大演进方向.这里的 playwright-cli 并不是我们以前理解的“用来跑 npx playwright test 的那个终端命令”,而是一个全新的全局 NPM 包(@playwright/cli )。它是微软专门为了解决 AI 智能体(如 Claude Code 、GitHub Copilot Workspace 、Aider 等)在进行浏览器自动化时极其消耗 Token 的痛点而重新设计的.

    w568w

    12

    w568w      19 分钟前

    @walkon 谢谢,我用了的。

    我还可以再举一例:AGENTS.md 里有要求:

    - `find` or Glob or `glob` MUST be used with `-print0` and `xargs` must be used with `-0` to handle file names with spaces or special characters. MUST use `-xdev` to avoid descending into slow network filesystems. NEVER find or glob or search files without `-xdev`.

    因为我们的项目里面挂载了网络文件系统,模型有时候喜欢直接全局搜索,会非常慢。

    至今为止,GPT-5.5 遵从过这个指令 0 次…… 我觉得我这段话应该已经写得够清楚了,对吧

    canyue7897

    14

    canyue7897      17 分钟前

    @w568w 你是不是写的东西太多了?本来上下文就 258K ,你如果用了 sub2api 之类的,而不是原生的话,真实推理没有多少 K ,那就只剩压缩了。工具调用都占用几十 K 的上下文。

    qwerasdf123

    17

    qwerasdf123      16 分钟前

    看了你的两个帖子,感觉你的 gpt5.5 确实不正常,至于降智还是什么原因,需要具体排查一下

    lmmlwen

    18

    lmmlwen      15 分钟前

    你这个,还停留在上下文约束上面

    w568w

    19

    w568w      14 分钟前

    @jinsongzhaocn 谢谢,你这里我有一点认同的,就是确实是需要啰嗦。

    怎么说呢,感觉 GPT 在我这缺乏那种基本的逻辑思考能力,就像一辆不停撞墙的车,不出两轮对话就会把自己引到死胡同或者错误、疏漏的执行路径上。需要不停地手动 steer ,steer 完他才会正常几轮,然后又接着对着墙猛冲……

    如果多改正它几次,它就变得畏手畏脚,什么都不敢提、不敢问了,而且每轮对话里都要反复和我强调「我不会 xxx 、xxx 、xxx 」( xxx 是我前面改正它的内容),哭笑不得。

    lscho

    20

    lscho      14 分钟前

    不明白什么场景怎么用的。。。在我的场景 GPT-5.5 + codex 比 cc + opus4.8 都好用

    jinsongzhaocn

    22

    jinsongzhaocn      12 分钟前

    还有个可能是通过代理调用,结果代理给的是假冒的,代理是可以随意修改模型名称的。

    w568w

    23

    w568w      8 分钟前

    @canyue7897 @qwerasdf123 @jinsongzhaocn 是的,降智是我现在最怀疑的原因,关键是:各种模型验证站都测不出来!发个帖也是看看有没有朋友遇到类似的问题。

    我这里思考时间比较波动,有时候 10 分钟,有时候就一句话结束。但确实思考长的时候,主帖提到的情况会少一些。

    我是直接用的官网账号,在模型验证站上测模型验证的时候,通过的是我自己的 AxonHub 。

    @lscho 没有特殊场景,也没有加什么野鸡 skills 、或超长的 agents.md 、或用一个已经特别长的 context 不压缩,就是正常地下载 codex 、安装、登录,正常地提问和命令,就出现了这里提到的大部分问题了。

    shineonme

    24

    shineonme      8 分钟前

    感觉用的跟你不是同一个 gpt-5.5 xhigh

    第 1 点,我跑的项目没有做过特殊要求,每次都会做一遍编译测试,有时只改了很小的点,也会跑一遍完整的编译测试

    第 5 点,特地在 AGENTS.md 写了使用 conda 环境的 python ,用到目前没有出现过偏差的情况,写入 AGENTS.md 之前是会调用系统默认的 python, uv

    canyue7897

    25

    canyue7897      6 分钟前

    我是直接用的官网账号,在模型验证站上测模型验证的时候,通过的是我自己的 AxonHub 。你这个是 web 转 api 么?如果是,那 web 中间的很多工具调用你这个工具肯定不能完整模拟,很多都丢弃了,那你根本就是断断续续的得到信息,你直接用 codex 试试,不会出现你说的问题的。codex 还是很遵守指令的,有的时候过于遵守了,我都感觉没啥主动性。