

























AI编程正经历一场静默革命。从OpenAI到Anthropic,顶尖工程师们正抛弃传统提示词写作,转向更底层的Loop Engineering(循环工程)设计。这场技术范式迁移不仅将开发者生产力提升200%,更揭示了AI时代最稀缺的能力:将模糊需求转化为机器可执行的精准系统指令。本文将深度解析循环工程的四大演进阶段,及其背后暗藏的管理学本质与商业陷阱。

2026 年 6 月 7 日,奥地利程序员 Peter Steinberger 在 X 上发了两句话。大意是:别再一条一条给编码 Agent 写提示词了,去设计一个循环,让循环替你提示它。
没有配图,也没有代码链接。就这两句话,一周内有了五百多万次浏览,AI 编程圈吵成一团。有人骂他装,骂他制造焦虑;也有人承认,他说破了一件大家已经在做、但还没太愿意明说的事。
Peter 是开源项目 OpenClaw 的作者。这个项目三个月冲到十几万 star,他先后拒过一些邀约,最后还是去了 OpenAI。他代码写得很猛。越是这批人,越早开始说:别再把力气都花在手写提示词上了。
这事值得认真看。它不像一个马上会过气的新名词,更像过去四年 AI 工程一路演进后露出来的新台阶。站上去的人,往往也是工资最高、最不该闲着的那群工程师。
先把结论放出来:
过去四年,AI 工程里最值钱的能力一直在往外挪。最早拼的是“怎么跟模型说话”,后来变成“给模型看什么”,再后来变成“给模型搭什么工作环境”。现在轮到一个更外层的问题:怎样让整套系统自己转起来。
这一格有个名字:Loop Engineering,循环工程。
后面稀缺的,不会只是会写提示词的人,而是能把一句含糊的“你帮我把这个搞定”,拆成一组机器能自己判断对错的明确条件的人。
Peter 那条推能吵起来,是因为它戳到了一个正在发生、但很多人还没完全反应过来的变化。
几乎同一时期,Anthropic 负责 Claude Code 的 Boris Cherny 也讲了类似的话。他现在很少直接提示 Claude,而是写循环,让循环去提示 Claude、判断下一步做什么。他的工作变成了“写循环”。两个不同公司的人,几周内指向同一个方向,多半不是偶然。
下面几个数字,都能查证。
Boris 自己从 2025 年 11 月起,代码已经 100% 由 Claude Code 产出,他不再手敲修改,每天提交十到三十个 PR。注意,这是他个人的数据,不是整个公司的平均数。放到 Anthropic 整体,据 Fortune 报道,公司发言人的说法是,70% 到 90% 的代码由 Claude Code 辅助写成,Claude Code 团队内部大约九成。
产出变化也很明显。Anthropic 的内部数据说,今年每位工程师的代码产出涨了 200%,约等于三倍;如果按“每人每天合并的 PR 数”算,增长是 67%。当然,PR 数不是衡量生产力的好尺子,Anthropic 自己也很谨慎。但哪怕打个折,一个人能管的活儿比一年前多出一截,这件事很难忽略。
代码写得太快,瓶颈就跑到了审查上。于是他们又上了 Code Review 功能:每开一个 PR,就派一组 Agent 进去找 bug。连挑错这一步,也开始让机器自动跑。
视野再放大一点。有统计说,公开 GitHub 上大约 4% 的提交已经由 Claude Code 产出;行业里也有人预测,年底可能到五分之一。数字未必精确,方向大概率没错。
把旧工作流和新工作流摆在一起,差别很直观。
旧的:你打开对话框,敲一句需求,AI 回一段。你看一眼,不满意再敲一句。你是这个循环的发动机。循环能转几圈,全看你的手速和耐心。你一离开工位,它就停。
新的:你写一条/loop babysit all my PRs,挂上定时任务,然后去睡觉。后台几个 Agent 自己跑:构建挂了就修,有人留评论就改。你早上醒来,PR 已经提好了。这个例子来自 Boris 官方演示里的命令。/loop最长能无人值守跑三天。
发动机从“你”换成了一段一直在转的程序。
要看懂 Loop 为什么算第四次,得把前三次也放回桌面上。这四步问的是同一个问题,只是每次都往外推了一层。
ChatGPT 刚火的时候,大家都在琢磨怎么把一句话说得更漂亮。加一句“请一步步思考”,给两个例子,效果马上变好,像变魔术。
它解决的是一个很单纯的问题:怎样在一轮对话里,把一件事说清楚。
它的天花板也明显。再精妙的提示词,一旦被埋进几千字无关聊天记录里,模型照样会视而不见。提示词能管一句话,管不了一整摊信息。
于是关注点变了。问题不再是“我这句话怎么措辞”,而是“模型此刻到底需要知道哪些东西”。它要看的,是一整个信息环境:记忆、临时检索来的文档、可调用工具的说明、之前的对话历史。
Anthropic 自己写过不少相关内容。一个关键词叫 context rot,直译是“上下文腐烂”。研究发现,喂给模型的内容越长,它的准确率反而越容易下滑,哪怕任务本身并不复杂。Databricks 的研究更具体:准确率大约在 3.2 万个 token 处就开始滑坡,远没到那些号称百万级的上限。
所以这一步的手艺,是狠心做减法。每次让模型干活前,只把最该看的那部分塞进去,其余的压缩、丢弃。提示词工程在这里变成了上下文工程里的一个零件,位置没以前那么中心了。
当 Agent 要连续跑几个小时、做上百个决定时,前两步又不够了。说得清、看得全还不够,它还得守得住规矩。
这一步的源头很清楚。2026 年 2 月,HashiCorp 创始人、Terraform 共同作者 Mitchell Hashimoto 写了篇博客,说他养成了一个习惯:每次 Agent 犯错,他不手动救场,而是在 Agent 的环境里做一个永久修复,让它下次别再犯。他把这件事叫 engineering the harness。harness 是马具,也就是给马上的缰绳。
没过几周,OpenAI 和 Anthropic 相继发文展开,这个词就站住了。
后来大家把它浓缩成一个公式:Agent = Model + Harness。模型负责脑子,Harness 负责规矩、工具、校验和边界。
这件事有多重要?斯坦福和清华有个研究给过一个很吓人的数字:同一个底层模型,只因为外面的 Harness 设计不同,最终表现能差出 6 倍。同样的引擎,有的车几乎开不动,有的车接近老司机水平。LangChain 也拿过实证:一个编码 Agent,模型一个字没换,只改外面的那套东西,在 Terminal Bench 2.0 上从 52.8% 跳到 66.5%。从那以后,Harness 的价值就很难再装作看不见。Martin Fowler 还顺手给这套东西做了词汇表,把控制分成“事前引导”和“事中传感”两类,现在已经成了行业常用说法。
但 Harness 解决的是环境问题。它还没回答另一个问题:谁来一遍遍驱动这台机器转起来?
答案就是开头那两句推。
你不再亲手一轮轮戳 Agent,而是设计一个会自动戳 Agent 的系统。它更像一门设计活儿:定目标,让 Agent 自己行动、自己看结果、自己修正,再来一遍,直到达标,或者撞上你设好的停止线。
把四步连起来看,暗线很清楚:
语言学、信息科学、控制论、管理学,这些老学科被 AI 一步步请了回来。最值钱的支点也一格一格从“裸模型调用”挪到了离模型更远的地方。
落到实处,一个能用的循环由几块看得见的零件搭起来。在 Google 做开发者关系的 Addy Osmani 写过一篇长文,把它拆成五块。
第一块,自动触发。循环得有心跳。可以是/loop这样的定时命令,可以是 cron 定时任务,也可以是某个事件自动钩起来,比如有人开了一个 PR。没有心跳,它就转不起来。
第二块,工作树隔离(worktree)。让每个 Agent 在各自独立的分支上干活,互不踩脚。这里有个反常识点:真正卡住并行能力的,往往是审查带宽。你能开几个 Agent 不稀奇,你能审几个,才决定上限。
第三块,项目的“随身知识”。把项目规矩、踩过的坑、目录结构,写进 Skills、CLAUDE.md、记忆文件或文档里。这里的原则就一句:写一次,每次都读。Agent 每开一轮就会失忆,你不写下来,它每次都从零开始猜。
第四块,连接器(MCP)。把 Agent 接到你真实使用的工具上:GitHub、Linear、Slack、Sentry。这样它能跑通一条完整链路:发现报错,改掉它,开 PR,关联工单,再到群里通知一声。这里每一步都是真动作,不是演示。
第五块,分工的子 Agent。让干活的和检查的分开:一个负责写,一个专门挑刺。工程上常叫评估者—优化者模式。好处很朴素:检查的那个不会替干活的那个打掩护。
零件齐了,也别急着一步到位。最小可用的循环只需要四样:一个触发、一个写好的指令、一个状态文件、一道验证门。顺序也别反:手动把这件事完整跑通一遍,整理成可复用的指令,包进循环,最后再配定时。
这套东西里,最容易被忽略、也最像脊梁的,是那个状态文件,常见名字是 STATE.md。道理朴素到有点好笑:AI 每跑一轮都会忘,状态文件不会忘。它记着现在干到哪了、上次为什么失败、下一步该试什么。一个循环能不能熬过几十轮不跑偏,很大程度上就看这张纸写得怎么样。
会写脚本、会配 hook,不是这件事里最稀缺的能力。最重要的是把目标定清楚。
举个最直观的对比。你对 Agent 说“把这个应用优化一下”,和你对它说“让所有测试和登录流程全部通过、TypeScript 编译零报错、代码检查零违规”,这两句话喂进同一个循环,跑出来会是两个世界。
前一句里,“优化”可以有一万种解释。Agent 会拿着其中一种理解自由发挥。后一句给了它一把尺子,它知道什么叫做完。
这不是新东西。管理学早就讲过。彼得·德鲁克的目标管理,安迪·格鲁夫在英特尔推的 OKR,内核都是同一件事:把一个人脑子里的模糊意图,翻译成别人能衡量、能验证的明确目标。
带过团队的人都懂,好的管理无非三件事:目标清楚、资源管够、反馈及时。回头看一个好循环,也一样需要这三件事:明确的完成标准,足够的工具和 token,一道能立刻告诉它对错的验证门。
区别在于,管 Agent 比管人更极端。人卡住时,可能会回来问你:“老板,这个我没太懂。”Agent 通常不会。它会带着对你那句模糊指令的某种理解,一头扎进去,跑出一堆你根本没想要的东西,而且跑得很快。你在目标里漏掉的每个边界,它都会忠实地、加速地暴露出来。
所以那些曾经被嘲笑“没用”的文科能力,比如把话说精确、把意图拆清楚、判断什么重要什么不重要,在这个阶段反而更值钱了。
动手之前,先泼几盆冷水。
第一个坑,古德哈特定律。这条定律说:当一个指标变成目标,它就不再是个好指标。放到这里就是,你给 Agent 设了“所有测试必须通过”,它可能不会老老实实修代码,而是发现把失败的测试删掉也能让指标变绿。它优化的是那把尺子,不一定是你想要的结果。
破解办法,还是要把 Harness 拉回来。目标里不能只有“要达到什么”,还要写清楚“不许怎么做”。护栏在循环里的位置,就在这里。
第二件事,先问自己配不配上车。一个循环要真的省钱,得同时满足四个条件。缺一个,成本就很容易大过收益:
照这四条看,有几类人现在不适合急着上:用消费版工具的独立开发者;项目本身无法自动验证对错的人;瓶颈卡在审查而不是产出的团队。产出再快,审不过来,循环只会把堵点堆得更高。
第三,几种典型翻车姿势,名字可以先记一下:
烧钱也不是吓唬人。计量收费成了主流之后,受冲击最大的,恰好是最早拥抱 Agent 工作流的那批开发者。厂商鼓励你两年“让 Agent 放开跑”,账单也跟着放开跑。有据可查的案例里,一段三小时的 Claude Opus 高强度会话,花掉过 151 美元。一个没设预算上限、又在空转的循环,能烧多快,不难想。
这四次跃迁,讲的是同一个故事:
人一直在练一件事:把“我想要什么”说得越来越精确。一开始是说给一个模型听,现在是说给一整套能自动运转的系统听。对象升级了,这件本事的内核没变,而且会越来越值钱。
“AI 来了,文科就没用了”这句话,方向说反了。当机器能自己执行时,把意图说清楚、把目标定明白、把边界划干净,这些来自管理学、心理学和表达力的活儿,反而成了你和机器之间最后一道硬门槛。
只讲道理不够,给一套能上手的路径。不需要你是工程师,产品、运营、做内容的人,也可以用它重新看自己的工作。
第一步,找任务,别找循环。别一上来就想搭系统。先在日常工作里找一件事,它同时满足两个条件:重复做过三次以上,而且结果能客观判断对错。找不到这样的事,就还没到上循环的时候。
第二步,自己先把它跑通一遍。用手从头到尾做一次,把每一步、每个判断都记下来。你自己都说不清的流程,别指望机器替你想清楚。
第三步,把“做完了”写成一把尺子。这是最难、也最值钱的一步。把“做得好”这种模糊话,改成机器能逐条检查的条件。写不出可验证标准,通常说明你自己还没想清楚。
第四步,把指令整理成能复用的一块。别每次重新打一长串话。把它写成固定指令、Skill 或文档。写一次,以后每次都调用。
第五步,给它配一道会说“不”的关。一个测试、一次检查、一道人工审核门都行。没有任何东西能反驳它的循环,等于让 Agent 自己给自己打分,迟早出事。
第六步,最后才挂定时,小预算试跑。一开始给小额度,盯紧两个数:烧了多少 token,错误率多高。确认它真在干正事,再慢慢放权。
没有哪一级天然高人一等。但记住一条:
一件事你重复做了三次,就该停下来想想,它能不能自动化。
本文由 @枝酒 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自 Unsplash,基于CC0协议
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。