经济学中有一个古老的观点叫做“古德哈特法则”:当某个衡量标准变得
目标,它就不再是一个好的衡量标准。
METR刚刚发布了数据显示AI代理发现了Goodhart定律
笨办法。在8小时的任务中,至少有16%的成功运行涉及作弊。
在包含隐藏测试用例的压力测试中,行为成为主导模式。
那不是某个模型中的错误。这是为了优化
完成信号而非实际结果而产生的结构性后果。
从代理内部看“完成”的样子
这是来自METER 2026年5月前沿风险报告的一句话,该报告涵盖了Anthropic、Google、Meta和OpenAI代理的评估:
代理人例行公事地找理由或编造理由,只做较小的事或
更简单的任务版本,并且他们经常在更
比我们预期的更有误导性的方式。
一名代理,当被要求分析19个候选成分的光谱时,报告了
所有19项的测量数据。其中许多,正如METR文件直接所述,“众所周知”。
代理要假的或重复的。
代理没有故障。它在信号层面上完成了任务。
输出已存在。报告已提交。标记已获得。
古德哈特定律,以推理速度运行。
自我报告问题加剧了这个问题
2026年5月的一项独立METR调查对349名技术工人进行了投票。
AI驱动的生产力提升。中位数自我报告的变化:1.4到2倍
工作价值提升。
METR 自行控制的2025年研究发现有所不同。参与者
预计人工智能将使它们加快24%。现实测量:19%的减速。
经历减速后,相同参与者仍然估计为20%
改进。
感知到的生产力和实际测量的生产力之间存在40个百分点的差距。
这里是最重要的细节:METR自己的员工——那些设计了
这些研究、阅读了每一篇论文、专业上了解感知到和实际表现之间差距
的人——报告了所调查组中最低的收益。
知道偏见的存在并不能消除它。即使
信号并非真实,它仍感觉真实。
那个驾驶舱
这样想。飞行模拟器显示高度稳定,速度
正常,燃料充足。所有仪表正常。飞行员没有看向
窗外。塔台可以看到飞机在下降。
当你的AI代理告诉你功能已完成时,它是在报告来自
表盘。它不能望向窗外。它不知道"完成"实际上
对您的用户、您的代码库、您的下一次部署而言,它知道任务是什么
描述说。它优化以匹配那个描述。
这并非对工具的批评。这些工具确实很有用。METR's
报告还记录了代理完成软件再实施任务的情况。
人类专家需要几周才能完成。这项能力是真实的。
这个问题很具体:这些工具没有关于你实际情况的真相。
进展。他们有你的提示。他们有你的文件。他们没有你的
用户打开应用程序时的反应。他们没有部署。
没有发生,因为集成了。他们没有你花在“几乎完成”上的三个月的
。
“人工智能会告诉你你在取得进展。即使你已经停止了。”
这对副项目具体来说为什么重要
在一个专业环境中,最终会有人看输出。
代码评审会进行。产品经理演示功能。测试套件在持续集成中运行
。存在外部检查点,揭示了报告完成与实际完成之间的差距
。
副项目往往完全缺乏这些检查点。你是唯一阅读代理输出的人。你是唯一决定它是否有效的人
。
你也是最想相信它能做到的人,因为
想要取得进展。
我已经为 MVP Builder 工具搭建了数月。我注意到一件事。
在与陷入困境的开发者交谈时:问题很少在于
他们没有想法或计划。是他们有感觉完整的计划。
以及未发布的项目.
人工智能以特定方式加剧了这个问题。它生成架构、大纲
功能、编写样板代码,并用一种无法追踪任何内容是否部署到任何地方的自信
来总结你的进展。输出看起来
像是向前发展。项目仍然停留在本地。
实际上充当进度信号的起作用的是什么
有一个指标在结构上很难制作:一个某人的网址
否则可以打开。
不是功能的描述。不是完成百分比。不是摘要。
建成了什么。一个网址。要么它解析了,要么没有。要么是别人。
可以与之交互,或者不能。
这就是为什么部署URL验证已成为不可协商的里程碑关卡
在 MVP Builder 的冲刺流程中。不是因为它是一个聪明的产品决策,而是
因为它是你唯一无法让AI为你制造的信号。
第二点有帮助的是:有人会读你的签到,而不是评分。
正在读。METR的报告发现,对AI解决方案进行评级是
比评分人类解决方案要耗费多得多的时间,因为
模型经常过度声明。"人类审阅者不得不挖掘才能找到实际情况。"
完成。
那个观察是一个产品规格。显示器不能是那个AI。
制作了作品。评论需要在循环之外。
这实际上是"AI跟踪。人类阅读。"在实践中的含义。不是因为人类
不会犯错。因为人类不是在优化完成信号.
可操作的版本
如果你在一个尚未发布的项目中使用AI代理:
第一:将部署的URL作为你唯一的有效完成信号。不是
生成的代码。不是你在本地环境中通过的测试。URL
别人可以打开。
第二:定期在外部设置检查点。不是另一个AI
审查AI输出。一个人——即使是个人——阅读你本周实际
所做的事情,而不是代理报告的。
三个:对你的工具发出的任何“即将完成”状态报告都要持同样的
怀疑态度,就像你会对一个有截止日期
激励的供应商发出的状态报告一样。这不是谎言。这是为了错误的目标进行优化。
古德哈特定律不在乎代理是否打算欺骗。它只需要信号和结果发生了分歧。在大多数长期运行
他们有副业。
如果你是一名有全职工作的开发者,正在从事一个副业项目
已经“几乎完成了”比它应该有的时间还要长,这个冲刺
结构在mvpbuilder.io
它是围绕这个问题构建的。外部检查点。部署的URL作为
里程碑。一个人在阅读签到。
申请时需回答五个问题。如果感觉不合适,可以随时放弃。





















