惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

N
News and Events Feed by Topic
Malwarebytes
Malwarebytes
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
C
Cybersecurity and Infrastructure Security Agency CISA
F
Future of Privacy Forum
C
Cisco Blogs
T
The Exploit Database - CXSecurity.com
A
Arctic Wolf
S
Securelist
K
Kaspersky official blog
S
Schneier on Security
T
ThreatConnect
T
Tenable Blog
Spread Privacy
Spread Privacy
T
True Tiger Recordings
AWS News Blog
AWS News Blog
F
Fox-IT International blog
量子位
T
Threatpost
V
Vulnerabilities – Threatpost
C
CERT Recently Published Vulnerability Notes
Cisco Talos Blog
Cisco Talos Blog
GbyAI
GbyAI
宝玉的分享
宝玉的分享
腾讯CDC
G
Google Developers Blog
aimingoo的专栏
aimingoo的专栏
Cyberwarzone
Cyberwarzone
有赞技术团队
有赞技术团队
S
SegmentFault 最新的问题
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
V
Visual Studio Blog
U
Unit 42
雷峰网
雷峰网
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Simon Willison's Weblog
Simon Willison's Weblog
O
OpenAI News
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
The GitHub Blog
The GitHub Blog
The Register - Security
The Register - Security
MyScale Blog
MyScale Blog
小众软件
小众软件
A
About on SuperTechFans
Last Week in AI
Last Week in AI
Y
Y Combinator Blog
博客园 - 三生石上(FineUI控件)
美团技术团队
Google Online Security Blog
Google Online Security Blog
P
Proofpoint News Feed
MongoDB | Blog
MongoDB | Blog

博客园_首页

到底 TMD 用哪个: npm, pnpm, Yarn, Bun, Deno? 傻瓜, 当然用 npm 啦 - 李吉磊 上周热点回顾(5.18-5.24) [对比学习LangChain和MAF-04]针对消息的设计 TrueAsync Server 为 PHP 带来了原生的高性能 HTTP 服务器 规则漂移 帆软市场部为什么能成为高人效增长系统? 22. LangChain LCEL,用 | 串联AI的魔法语言 - 老陈说编程 完整学习LLM(二):大模型到底是什么 洛谷-P11942 [KTSC 2025] 重塑矩阵 题解 哈哈哈哈哈打不过我吧,没有办法我(vllm)就是这么强大! Hermes Edu Skills 从 170 到 188:一次中文教育 Agent Skill Pack 的工程化升级 一个外行,半年搞定机械臂:我的从0到1踩坑实录 新写了个直播录制工具,可录制抖音快手斗鱼直播 15天学会AI应用开发(一)搭建AI大模型应用开发环境 Childhood,23款童年卡牌游戏复刻 Github Copilot配置GPT5.5报错:'temperature' does not support 0.1 with this model. Only the default (1) value is supported. - Eric zhou 单曲循环 ClassIn 在 Linux 下无法播放音频 把 TeXstudio / LaTeX 工程交给 AI:texstudio-mcp 功能详解 .NET 8 Web开发入门(六):Blazor 全栈开发——告别 JavaScript 焦虑 别让 LLM 写文件:一套 Agent 进度跟踪的工程化范式 - BurningFish Qt Bridges for C# 深度技术解析 Multus 多网卡方案:IPVLAN 模式 被流量逼出来的架构:从一台服务器到云原生的 17 次蜕变 —— 集群、缓存、MQ、微服务、Docker、K8S 的前世今生 Claude Code安装全流程 Windows保姆级教程 awk 命令练习(从入门到进阶) Java + Spring实现Hermes Agent之龙虾、Skills、Mcp和沙箱代码执行环境思路 轨迹的蓝图:方程求解与交点计算 Agent新技术分享-Forge论文已被ACM接受 PowerMem 记忆系统的遗忘设计,从神经元到代码工程 我用了FastApiAdmin后,连夜把踩过的坑都整理出来了 一个程序员眼中的 AI 核心概念,讲透 LLM 、Agent 、MCP 、Skill 、RAG... 网络安全在线就能打的内网靶场推荐 & Dawn Breaker 单域靶场 WP CTF 中如何用提示词发挥大模型的最大实力:从聊天助手到大手子 PyTorch KernelAgent 源码解读 ---(6)--- Composer 高光谱拼接算法(一)扫推式成像和航带拼接算法 一文看懂fofa常用语法,告别混淆,精准打击! 从零搭建量化投资系统:用 Qlib 一行代码搞定均线分析 企业 AI 落地,第一件事不是买模型,而是建好企业知识库 如何在Oracle Agent Factory中配置国内厂商的LLM? Codex 换模型太麻烦?这个开源桌面工具帮你一键切换 Avalonia中的动画 2026软考|十大管理超全通俗笔记,备考闭眼记! rv1126b内置phy接hub交换机芯片 React 可拖拽列宽 + 点击行选中 ProTable 封装笔记 五大实锤证据:AI不会终结低代码,只会倒逼技术进化 【硬核脑洞】16位实模式最后的疯狂:我们能否在 640KB 常规内存里手搓一个 MD 模拟器? 基于.Net的NetCoreKevin框架中AgentFramework实现AI智能体Skill和工具动态管理和加载 PostgreSQL 高可用集群 patroni 自动故障转移测试 自己使用C++开发的仿OpenClaw、Hermes智能体工具 记一次 .NET 某集群管理软件 内存暴涨分析 StarBlog番外(5) 从1.6到1.10,基于Avalonia AOT 开发的 Publisher 半年进化之路 Anthropic 把 SOC 误报率从 33% 砍到 7%,真正在干活的不是 Claude SM2演示所有 PEM 功能(生成、加解密、签名/验签) 用 Solon AI 从零构建 MCP 工具服务:让 AI Agent 拥有真实世界的能力 完整学习LLM(一):为什么我要系统学习大模型 Agent Harness Runtime 架构深度解析:工具循环、状态外置与长程任务调度 [对比学习LangChain和MAF-03]完全不同的Agent设计哲学 毫不夸张地说,这将是目前最全的AI测试教程!测试必看! AI Coding 为什么选择 TUI ,前端的新机会在哪里? 无需安装cc switch,10行命令帮你配置Claude Code+deepseek Context Engineering 到 Harness Engineering —— 大模型时代软件工程的新范式 OpenClaw.NET 兼容性目录指南(Compatibility Catalog) Nginx 上游健康检查插件 nginx-healthcheck-module 三角形数 AScript异步执行与await关键字 - rockey627 Vector Quantization for Recommendation 笔记 21. “|”不只是按位或,90%的人不知道 这 3 年做教育相关项目,我把一些经验整理成了一个开源 Agent Skills 项目 2026 西安本土 GEO 测评:灵怡云凭差异化站稳第一梯队 PortSwigger SQL注入LAB7 & LAB8 & LAB9 Splay 学习笔记 这款爆款激光粒度仪凭何全球狂销5000台?揭秘百特Bettersize2600“常青树”背后的硬核实力 十分钟学习 TypeScript 【学习笔记】《Python编程 从入门到实践》第1章学习笔记:Python环境搭建与Hello World(完整版) 初试 vibe coding:Tauri + React + Rust 构建的 windows 本地番茄钟 从 Vibecoding 入门,到 Agent 差点入土 IDEA Maven 手动替换第三方Jar包完整教程 填充与积累:积分与面积的可视化 告别 Django Admin!这个 NodeJS 全栈框架让你在 DTO 中直接配置 Table/Form 渲染 重建 AI 认知第 1 篇:基础认知——一张地图看懂 AI Landscape VAPD AgentKit:可组合 Agent 前端通用库实践 SolonCode v2026.5.21 发布,Web 能看项目,IM 能找队友 从 LangGraph 回到 Model-Tool Loop:更聪明的模型,正在让 Agent 架构重新变简单 从人工同步到自动闭环:跨 Java/.NET 代码转换工具的工程化实践 你的显卡能跑多少算子?用 55 个检查项,给 PyTorch GPU 环境做一次冒烟测试 Claude Code 快速开始 2分钟搞定全网巡检:一个脚本+五大必备 Python 库,让你一天干别人一周的活 最近面完 30 个想转 AI 测试的人,我麻了:80% 都踩了这 4 个坑! 4.3、多体交叉存储器、Cache的基本原理、相联存储器、 Cache地址映射与变换方法 简译项目的项目落地 OpenClaw Dreaming 记忆流水线底层架构:状态分层、证据留痕与检索回流 .NET 10 桌面 UI 框架的范式演进:Jalium.UI 与 MewUI 架构深度对比 [对比学习LangChain和MAF-02]基本编程模式的差异(下篇) 我的编程经历,从天桥地摊Basic到西藏阿里的.Net AOT。(续二) House of botcake与IOFILE任意读写 Markdown锚点跳转失败的解决办法 力扣之路01—两数之和 "Sample Is Feature: Beyond Item-Level, Toward Sample-Level Tokens for Unified Large Recommender Models" 论文笔记 拒绝宕机!用 Python 优雅榨干百万级 GIS 点矢量的裁剪极限
为什么 AI Coding 难进生产环境?深入了解 Everything-Claude-Code !
AI小老六 · 2026-05-25 · via 博客园_首页

AI Coding 真正难落地的,不是模型能力,而是交付闭环、Hook 护栏与知识层这些工程接口。
原文链接AI 小老六

很多团队聊 AI Coding,第一反应还是模型能力:代码生成得够不够快,补全是不是足够聪明,复杂需求能不能一步写出来。

但真正把 Claude Code、Codex 这类 Agent 放进生产环境之后,体感会很快变掉。决定结果稳定性的,往往不是模型会不会写代码,而是它有没有被放进一条可验证、可约束、可复用的工程链路里。

这也是我最近重度使用 Everything-Claude-Code(ECC)之后最强烈的感受。ECC 当然提供了大量 subagent、skill 和 hooks,但更有价值的不是这些表面形态,而是它给出了一种更适合 Agent 参与的软件工程接口:把计划、执行、验证、知识沉淀和权限边界,编排成模型能稳定消费的结构化系统。

如果只把 Agent 当成“更会写代码的补全工具”,它的上限其实很低。一旦把它看成持续参与交付流程的一名执行者,很多过去默认由人脑兜底的环节,就必须被重新设计。

先把“完成”说清楚,再谈生成速度

AI 在工程里最容易制造错觉的地方,是它总能很快给出一版“看起来差不多”的实现。真正昂贵的部分从来不是敲出几段代码,而是确认这次改动到底有没有命中问题、会不会引出回归、能不能被团队接住。

拿一个很典型的线上问题来说:登录态超时后,用户无法重新建立 session。表面上看,这是一个 session 修复任务;实际上,它至少包含四个判断:

  • 根因到底出在创建、透传还是失效逻辑
  • 回归范围会不会波及别的认证路径
  • 测试是否真的复现旧问题,而不是只保护新实现
  • 改动完成后,构建、类型、安全和 diff 是否还能站得住

当这些判断没有前置成一条交付链时,Agent 很容易直接跳到“最像答案”的实现上。它改几段判断,补两条 happy path,然后很真诚地告诉你已经修好了。问题是,这类“完成”通常只是生成完成,不是交付完成。

更可靠的做法,是把任务入口改成一条面向交付的接口:先理解问题,再收束变更,再验证结果。AI 的职责不再是抢答,而是沿着明确链路推进。

publish-rendered-1.png

图:从需求进入到提交收口,AI Coding 真正要跑通的是一条交付闭环

这类接口带来的提升,不是让模型“更聪明”,而是让它不容易在错误的地方过早收工。

下面这张表能更直观地说明差别:

执行方式 典型起手式 常见问题 更适合的场景
直接让模型改 看到需求就开始写实现 容易误判根因,验证不足,回归范围失控 原型、小脚本、低风险探索
沿交付链推进 先 plan,再复现,再实现,再全链验证 单次耗时更高,但结果更可审计 主干开发、线上功能、多人维护代码

所以真正该优化的不是“如何让 Agent 写得更快”,而是“如何把完成标准提前翻译给 Agent”。只要代码会进主干、会被别人维护、会影响线上行为,这一步就值得做。

阶段切分:不是仪式,是在给上下文降噪

很多失败的 AI Coding 任务,本质上都是因为任务包得太大,里面混着目标、约束、接口改动、历史包袱和潜在风险,最后模型只能抓住最顺手的一段先开工。

比如一句“把登录流程改一下”,对人来说都已经很模糊了,对 Agent 更是高噪声输入。它也许会优先看到 UI,也许会优先看到接口,也许会先改状态管理。哪条路径最先被注意到,往往决定了它后面整轮执行的方向。

ECC 这类实践里,我最想借过来的一点,就是强迫任务先分阶段、再执行。先探索,再进入 plan mode,确认影响面和边界后再实施,最后才进入提交动作。这个顺序不花哨,但很对模型的脾气:一旦开始写代码,它就会本能地替第一版思路找理由,很少主动退回去重审题目。

把复杂问题拆开,还有另一个好处:每个阶段只承受一种认知负担。规划阶段关心边界,测试阶段关心复现,实施阶段关心最小改动,评审阶段关心风险与证据。这样做并不是为了形式完整,而是在主动降低上下文噪声。

如果说人类工程师擅长在混乱中抓重点,那么 Agent 更适合在明确阶段里把单点任务做到位。阶段切分,本质上是在替它清理战场。

验证闭环:生成只是候选,过线才算交付

AI 写代码最大的问题通常不是“写不出来”,而是“过早觉得自己已经写完了”。人类也会这样,只是人更容易意识到还有哪些环节没补;模型则经常在功能代码跑通的那一刻,默认任务已经结束。

所以对 Agent 来说,最关键的能力不是生成,而是把验证做成闭环。构建、类型检查、lint、测试、安全扫描、diff review,这些动作单独看都不新鲜,但它们一旦串成一条自动反馈链,性质就完全变了。

# post-edit verification example
set -e
pnpm build      2>&1 | tee /tmp/build.log || { echo 'BUILD_FAILED' >&2; exit 2; }
pnpm typecheck  2>&1 | tee /tmp/tsc.log   || { echo 'TYPECHECK_FAILED' >&2; exit 2; }
pnpm lint       2>&1 | tee /tmp/lint.log  || { echo 'LINT_FAILED' >&2; exit 2; }
pnpm test --run 2>&1 | tee /tmp/test.log  || { echo 'TEST_FAILED' >&2; exit 2; }

关键不在于这几条命令本身,而在于失败信号会被重新送回 Agent。它不会停在“我改完了”,而会被迫面对“你这次改动还没过交付线”的事实。

当然,这条链并不是越长越好。验证项一多,反馈就会变慢,模型会在长等待和小修小补之间来回打转。更现实的工程做法通常是分层验证:本地增量只跑受影响范围,进入 merge 或 release 关口时再跑全量检查。验证闭环的目标不是制造流程负担,而是用最低必要成本尽早排错。

Hook 护栏:不要反复提醒模型,要把经验写进运行时

很多团队和 Agent 协作时,实际做法还是“靠对话记忆”:别忘了跑测试,别越界改文件,先想清楚再动手,数据库迁移不要乱碰。这些提醒在一轮对话里可能有效,但只要上下文一长、任务一拐弯,约束就会迅速失焦。

比起不断提醒,更稳的办法是把经验写成 guardrail,直接挂在运行时。Hook 的价值就在这里:它不负责让模型变聪明,它负责在模型走偏的时候第一时间把门关上。

下面这个流程,更接近一条真正能落地的 Hook 防线:
publish-rendered-2.png

图:高风险编辑不该直接放行,而要先补事实、再重试

我保留了一个很关键的意思,但换了种讲法:当 Agent 试图改动高风险文件时,系统不该只丢一句“谨慎一点”,而应该直接拒绝这次操作,并要求它先补齐依赖文件、影响范围、数据结构和用户原始指令这些事实,再回来申请编辑。这类 guardrail 很顶用,因为它把模糊的“你注意点”变成了明确的“没有证据就先别动”。
hook-guardrail-example.png

图:真实 Hook 会把高风险编辑拦在执行前,而不是事后补救

这也解释了为什么 hook 往往比 prompt 更可靠。prompt 依赖模型记住规则,hook 则直接控制执行入口。一个会疲劳,一个不会。

但 guardrail 也不是堆得越多越好。约束太重,探索性任务会变得寸步难行。所以比较成熟的做法,通常是分档管理:高危拦截默认开启,原型和探索场景允许降级,一旦回到主分支或 CI,再恢复到标准强度。真正好的约束系统,不是处处把人和模型拦死,而是能根据任务风险自动切档。

知识层:别让每次新会话都从零理解仓库

只靠行为约束还不够。Agent 在工程里还有另一个常见瓶颈:它没有长期稳定的项目认知。

很多仓库里最重要的信息并不直接写在代码里,而散落在 PR、事故复盘、设计文档、口头经验和团队共识里。人类工程师接手一个系统时,往往会慢慢把这些背景拼起来;Agent 如果每次都从源码重新推断一次,不但成本高,而且很容易漏掉那些“代码为什么会这样”的历史前提。

这也是 Knowledge Layer 真正有价值的地方。它不是替代源码,而是在源码之外补上一层可复用的工程上下文,让 Agent 不必每次都把已经验证过的结论重新发现一遍。

但知识层如果没人管,很快就会从加速器变成误导器。文档里写着“默认重试三次”,代码里却已经改成指数退避;这时候 Agent 要是直接信了旧文档,错误只会被放大。所以知识层最要紧的不是“多”,而是可追溯、能校对,也知道自己什么时候已经过期了。

我更倾向把知识层分成三类:

知识条目 解决的问题 至少要带上的信息
决策记录 当时为什么这样设计,拒绝过哪些方案 决策时间、关联 PR、事故背景、失效条件
领域知识 业务规则、不变量、术语定义 来源文档、最近校对时间、适用范围
安全边界 哪些路径看似能改,实际上不能轻动 关联代码路径、违反后果、审批要求

如果再往前走一步,这些条目最好有 owner,有过期机制,甚至能在 CI 或 review 里给出提醒:代码改了,知识层是不是也该更新了。只有做到这一步,知识层才是工程资产,而不是另一套过期笔记。

Agent 并行:上限其实写在架构边界里

Agent 还有一个很容易被低估的优势:它不怕上下文切换,所以天然适合并发工作。人类工程师同时盯多个任务会很累,模型不会。只要环境隔离做得好,多个 Agent 完全可以并行推进不同子任务,最后再由主控流程统一收口。

这也是 worktree 一类机制特别重要的原因。每个 Agent 在独立工作区里修改自己的文件,主控 Agent 负责切任务、收结果、处理冲突,文件系统层面的互相污染会小很多。并发从来不是“多开几个窗口”这么简单,真正关键的是边界隔离和结果汇总机制。

不过,Agent 并发反过来也会倒逼架构改造。一个模块职责混乱、边界模糊、到处都是副作用的系统,人协作都费劲,Agent 协作只会更糟。要让并发真正跑起来,代码组织至少要满足几件事:

  • 改动边界清晰,最好一个功能能收敛在有限目录和模块里
  • 协作协议尽量机器可读,隐性规则不要只靠口口相传
  • 纯逻辑与副作用边界分开,方便把风险压在外围层
  • 状态可观测、修改可回滚,出错后能快速定位和撤回

从这个角度看,所谓“AI 友好的架构”,并不是什么新潮概念,它只是把很多原本对人友好的工程原则又往前推了一步。区别在于,过去这些原则做得差,团队还能靠沟通硬扛;现在交给 Agent,模糊边界会更快暴露出代价。

团队落地:个人技巧沉淀成规则,才算组织能力

很多关于 AI Coding 的经验,单人用的时候都挺有效,但只要换团队,就很容易失真。原因并不复杂:如果 hook、计划模板、review 清单、知识条目都只是个人习惯,那它们的收益就没法稳定复制。

所以团队视角下更重要的问题不是“谁最会用 Agent”,而是“哪些经验已经被沉淀成所有人都能继承的协作底座”。比较理想的状态,是这些脚手架直接跟仓库走。新人 clone 项目下来,不需要从头学一套隐形工作法,就能继承团队已经验证过的 plan 模板、guardrail、验证链和知识层结构。

这也会带来 code review 关注点的变化。过去 reviewer 主要看人写的代码对不对,现在还要看 Agent 有没有被正确约束:有没有先 plan,verification 是否真的跑过,diff 是否越界,必要的 guardrail 有没有被绕开。换句话说,review 的对象不只是代码结果,还包括这次交付过程是不是可信。

责任边界也必须说清楚。Agent 可以帮忙生成、分析、执行,但提交责任仍然属于人。这个共识如果不提前建立,团队很容易把 Agent 当成效率工具的同时,又在出问题时把责任推给工具本身,最后让协作关系变形。

收束一下

把 Agent 接进工程体系之后,最值得重新设计的,其实已经不是“怎么让它多写几行代码”,而是“怎么把工程判断翻译成它能稳定执行的接口”。

流程是在定义完成标准,guardrail 是在限制错误扩散,knowledge layer 是在减少重复理解成本,架构边界则决定并发协作能不能成立。它们其实都在回答同一个问题:当 AI 开始持续参与交付,我们拿什么约束它,给它上下文,又怎么确认它这次真的做对了。

从这个意义上说,AI Coding 的核心矛盾一直都不是模型能力,而是工程接口设计。模型越强,这件事越不能省。

最后落到人身上,真正高杠杆的工作大概还是三类:

  • 定义边界:什么算完成,什么不能碰,哪些验证必须过
  • 做工程取舍:什么时候追求速度,什么时候坚持严格流程
  • 沉淀经验:把一次次踩坑换来的判断,写进规则、知识和自动化约束

如果这些事还停留在工程师脑子里,Agent 顶多偶尔惊艳一下。只有把它们翻译成稳定的工程接口,AI Coding 才有机会真正进入生产环境。