惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
人人都是产品经理
人人都是产品经理
Cisco Talos Blog
Cisco Talos Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
V
V2EX
博客园 - 三生石上(FineUI控件)
Martin Fowler
Martin Fowler
WordPress大学
WordPress大学
D
Docker
S
SegmentFault 最新的问题
博客园 - 聂微东
美团技术团队
Apple Machine Learning Research
Apple Machine Learning Research
月光博客
月光博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Last Week in AI
Last Week in AI
M
MIT News - Artificial intelligence
F
Fortinet All Blogs
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
The GitHub Blog
The GitHub Blog
GbyAI
GbyAI
L
LangChain Blog
Vercel News
Vercel News
博客园 - 叶小钗
MongoDB | Blog
MongoDB | Blog
Stack Overflow Blog
Stack Overflow Blog
H
Help Net Security
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
The Cloudflare Blog
Engineering at Meta
Engineering at Meta
T
Threat Research - Cisco Blogs
T
Threatpost
Scott Helme
Scott Helme
T
Tailwind CSS Blog
Latest news
Latest news
Stack Overflow Blog
Stack Overflow Blog
Blog — PlanetScale
Blog — PlanetScale
The Register - Security
The Register - Security
罗磊的独立博客
P
Proofpoint News Feed
腾讯CDC
S
Schneier on Security
雷峰网
雷峰网
A
About on SuperTechFans
T
Tenable Blog
F
Full Disclosure
Cyberwarzone
Cyberwarzone
博客园_首页
有赞技术团队
有赞技术团队
K
Kaspersky official blog

文章列表

Note.ms在线简洁匿名记事本,如何修改/0页面 解禁了?RTX 5090 PRO6000上架京东自营店 用工具轻松的给Frpc配置SSL证书,穿透Http与Https流量,开启强制Https跳转 「POJ1740」A New Stone Game SG函数与博弈论题解 Deepseek V4发布了!综合能力比肩顶级闭源模型! 国内就可以使用的免费SuperGrok,无需登录无需排队,完全公益免费! 保姆级干货:在AI时代薅羊毛,如何获得大量免费的AI API?学完这个你的小龙虾就不缺粮食了!
Claude Opus 4.8来了!不再是比聪明,而是更能干活,敢于认错,变得诚实了!
PYM · 2026-05-29 · via

由来

2026年5月28日,Anthropic 在他们的官网发布了一篇文章,如下

官方说的话翻译过来就是,Claude Opus 4.8 在 Opus 4.7 基础上升级,判断力更强,更能诚实反馈自己的进展,也能比上一代更长时间独立工作,而且价格不变。

这句话看着没什么,但是其实隐含很多。

Claude Opus 4.7发布时就遭人诟病,能力是强了,但是变得懒惰了。

judgment、honesty、work independently。

判断力、诚实度、独立工作能力。

这三个词充分表明了Claude未来的技术路线,不再是普通对对话的模型,而是可以真正交付工作和任务的“可靠AI同事”。

一、判断力

AI 现在不缺回答,缺的是回答的可信度真的会完全相信一个 AI 吗,把他用于自己的工作上,你真的相信他给的建议、代码吗?Claude就在做这样一件事,让 AI 变得更加长期可信。

这次的更新实现一件很难的事情:AI知道什么时候该继续,什么时候该停下,什么时候该反驳你,什么时候该承认方案不靠谱了。

image-Vlci.png

二、诚实度

假设你是1个长期使用AI开发项目的人,你会仔细查看AI编写的项目的实际效果来和你的要求对比吗,你会尝试找到Bug然后让AI修复吗,我想大多数人是会的,因为人们不敢完全相信AI,这是会造成灾难性后果的,且有实际例子的。

之前的AI不会告诉你,我这个没完成,哪里可能还有问题,但是Opus 4.8现在会了

所以 Claude Opus 4.8 强调“more honesty about its own progress”

一个能诚实告诉你“我还没完成”“这里不确定”“这个测试失败了”“我需要重新检查”的模型,比一个永远自信满满的模型更可靠。

下面这张图是官方测试,得分越高的模型,越容易欺诈和配合欺骗,可以看到Opus 4.8是明显低于Opus4.7的

image-IzOE.png

三、更长时间独立工作

这是一句富有重量的话,这意味着什么,对开发者、产品经理、研究员、内容团队来说,这个AI开始工作后,不会隔几分钟就来问你 “接下来该怎么做”

他从按要求,完成要求,继续接要求,变成了接任务然后完成交付。

对于Claude Code、Codex这类工具来说,Claude Opus 4.8的更新让他能在此类工具中胜任更加复杂的任务,并做得更出色!