鸟窝 - 惯性聚合

鸟窝

鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝鸟窝 LLM 究竟是如何工作的？ Go 实验特性详解 amd64 微架构级别对 Go 程序性能提升多少？ Loop Engineering 实践：一次批量实现 8 个 issue，完成夔牛工具的开发 Loop Engineering 实践：我把 RDMA 开发库移植到 Go 语言，花费 239 块钱傻瓜式RDMA高性能网络开发：从零跑到 400 Gb每秒百度物理网络监控工具开源第二弹：毫秒级监控工具 baize，让你的网络问题无处遁形百度网络监控工具开源第三弹：lidar — 不只是 pingmesh 别只盯着gopacket了，看看这个强大的网络库大厂的内部工具居然开源了! 一窥百度物理网络秒级监控定位的秘密如何构建你自己的 Agent 运行时寻找你代码中的臭味：一个让 AI 帮你嗅出架构腐化的开源 Skill 套壳不丢人！我用Go+AI搓了一个Agent统一编排框架，ClaudeCode-Codex-Pi全被我包了告别死锁和陈旧语法、告别性能瓶颈：三个开源 Skill，新手Gopher 秒变 Go 语言大神 SPEC和PRD的区别 SPEC和方案设计有什么区别从需求到上线，让 AI 管理你的整个研发流程！ antigravity-cli 使用 CLIProxyAPI，让最新的 Codex 能够支持国内的各大模型 Clawpatch + codex-review：AI 代码审查工具链的正确打开方式拆解Manus：沙盒架构深度解析 40+ Claude Code Tips： From Basics to Advanced Ralph 实验：构建 SQLite UI 了解 Manus Sandbox - 您的云计算机 Notex：一个开源 NotebookLM 替代方案的实现拆解Manus：真正有用的深度报告的生成 Claude Code 使用我给每个模型服务商『捐』了10块钱，只为了... Go之禅 - 基于Rob Pike思想的Go语言哲学 Codex CLI vs Gemini CLI vs Claude Code：谁是最佳选择？ goskills：Claude Skills 功能强大，为我所用一行代码使用 Claude Skill 和 deepseek langchain + MCP：如虎添翼 Linux 中网络包的一生 godotenv 库介绍 Codex CLI vs Gemini CLI vs Claude Code： Which is the Best? 使用Linux 30年了，我都不知道 ping 8.8 还能这么用？从 AI 哪里挣钱？ Go sync 包近两年发展综述 deepseek-v3.2-exp的闪电索引器

鸟窝

by smallnest · 2026-06-28 · via 鸟窝

目录 [−]

13.1 GSD 是什么：Git. Ship. Done.
13.2 核心问题：上下文腐化
13.3 五步阶段循环：Discuss → Plan → Execute → Verify → Ship
1. 13.3.1 Discuss——动手规划前先把实现决策定下来
2. 13.3.2 Plan——研究、分解，并验证计划装得进一个全新上下文窗口
3. 13.3.3 Execute——以并行波次运行，每个执行器从干净上下文起步
4. 13.3.4 Verify——宣告完成前先诊断并生成修复计划
5. 13.3.5 Ship——创建 PR、归档阶段、推进下一阶段
13.4 子智能体如何保持上下文整洁
13.5 持久化工件：STATE.md 与 CONTEXT.md
13.6 上手与既有代码库的接入
13.7 产品矩阵：从框架到独立 Harness
13.8 与全书方法论的对接
13.9 本章小结

"Claude Code is powerful. GSD Core makes it reliable."
Claude Code 很强大。GSD Core 让它变得可靠。

——open-gsd/gsd-core README

第 12 章给了 Loop Engineering 一个很大的愿景：你不再提示 Agent，而是设计提示 Agent 的循环。但那一章停在原理层，讲的是五个原语加一个状态记忆。把这些原语落成一套能直接安装、有明确文件结构、带 67 个命令的工程系统，是另一回事。

GSD Core 就是这样一套系统。它不发明新的 Agent，也不取代 Claude Code，而是套在你已有的运行时上面，把讨论、规划、执行、验证、交付这五步，固化成每个里程碑都要重复一遍的流水线。它想回答的不是"Agent 能不能写代码"，这个早就不是问题了，而是一个更隐蔽的问题：为什么 Agent 在小任务上表现惊艳，一接手大项目就开始胡言乱语？

这个问题有名字，叫上下文腐化（Context Rot）。本章讲 GSD Core 怎么把对抗上下文腐化当成第一性原则，用阶段循环、子智能体、持久化工件这三样东西，把一个容易漂移的编码 Agent 变成靠得住的工程伙伴。

13.1 GSD 是什么：Git. Ship. Done.

GSD 是三个词的首字母，Git. Ship. Done.（提交、交付、完成）。项目全称 open-gsd/gsd-core，由 open-gsd 组织维护，以 npm 包 @opengsd/gsd-core 的形式发布，MIT 协议开源。

它给自己的定位是一句话：一套轻量级的元提示（meta-prompting）、上下文工程与规格驱动开发系统。这三个定语各有所指。meta-prompting 是说它不直接干活，而是组织 Agent 怎么干活；context engineering 是说它的核心目标是管理上下文；spec-driven 是说它继承了第 3 章的规格驱动思想。

GSD Core 最要紧的特征是跨运行时。它不绑定任何一个 Agent 产品，安装时会问你跑在哪个运行时上，再把命令和 Agent 定义适配过去。官方支持的运行时有 Claude Code、OpenCode、Gemini CLI、Kimi CLI、Kilo、Codex、Copilot、Cursor、Windsurf。安装就一行命令：

1	npx @opengsd/gsd-core@latest

安装器会问你选哪个运行时、装到全局还是本地，并处理命名空间转换：有的运行时用连字符 gsd-plan-phase，有的用冒号 gsd:plan-phase。官方明确不建议你直接从 agents/ 或 commands/ 目录手动拷文件，让安装器做转换才能保证跨运行时一致。

整个系统由 67 个斜杠命令驱动。这个数字写在 docs/INVENTORY.md 里，还有一个测试 command-count-sync.test.cjs 盯着它和实际命令数对得上。换句话说，这不是一个 prompt 模板，是一个有版本、有测试、有文档的工作流引擎。

这里要澄清一个小差异。项目站点 opengsd.net 的首屏把循环的第一步写成 Research，GitHub README 写的是 Discuss。两者指同一件事，动手之前先把事情想清楚。本章统一用 README 的五步说法：Discuss → Plan → Execute → Verify → Ship。

13.2 核心问题：上下文腐化

要理解 GSD Core 为什么长成这样，得先看清它在跟什么作斗争。

上下文腐化指的是：上下文窗口越填越满，AI 的输出质量也跟着往下走。一个 Agent 在对话开头思路清晰、引用准确；聊到第五十轮，它开始忘记早先的决定、混淆文件、把已经否决的方案又提一遍。窗口没满，但信噪比塌了。

GSD 的文档把多数 AI 编程方案在规模上的失败，归到三件事头上：

上下文膨胀悄悄拉低质量。研究、规划、执行的细节全堆在同一个会话里，越堆越多，模型越来越难分辨什么重要。
会话之间没有共享记忆。今天的会话结束，明天重开一个，昨天的决定、试过的弯路、定下的约定，全没了。Agent 每次都从零开始。
没有机制验证代码真的能跑。Agent 说"做完了"，可"做完了"是声称，不是证明。这正是第 12 章反复敲的那一点。

针对这三个病根，GSD 立了三根支柱：

病根	支柱	做法
上下文膨胀	干净的执行上下文	每一步恰到好处，不膨胀、不漂移
无共享记忆	明确的计划与持久化状态	结构化任务图加落盘工件，可对齐、可审计
无验证	真实的验证	自动化检查加上人类读得懂的证据

这三根支柱，分别对应后面三节要讲的三样东西：阶段循环、子智能体、持久化工件。

13.3 五步阶段循环：Discuss → Plan → Execute → Verify → Ship

GSD 把工作组织成里程碑（milestone），每个里程碑内部分成若干阶段（phase），每个阶段都走同一套五步循环。这里有一条铁律：每次只推进一个阶段。不许一边规划一边执行，也不许跳过验证直接交付。

里程碑 Milestone
  └── 阶段 Phase 01
        Discuss → Plan → Execute → Verify → Ship
  └── 阶段 Phase 02
        Discuss → Plan → Execute → Verify → Ship
  └── ...

这五步各有专属命令，下面逐一拆解。

13.3.1 Discuss——动手规划前先把实现决策定下来

命令：/gsd-discuss-phase <编号>。

这一步不是写正式规格，而是一次轻量对话，目的是在规划开始前把实现决策定下来，免得规划者带着错误假设往下走。

它有个模式值得一提，叫假设模式（Assumptions mode）。传统的"讨论"是面试式提问，一条条问你想怎么做。假设模式反过来：Agent 先读代码库，基于证据自己形成观点，只在真正拿不准的地方请你纠正。它扮演的是思考伙伴，不是问卷。背后是一个朴素的判断：大部分实现决策，代码本身已经给了答案，没必要再问人。

产出两个工件：CONTEXT.md，结构化的决策记录；<NN>-DISCUSSION-LOG.md，人能读的审计轨迹。

13.3.2 Plan——研究、分解，并验证计划装得进一个全新上下文窗口

命令：/gsd-plan-phase <编号>，可带 --research、--skip-research、--tdd、--mvp 等标志。

这一步是 GSD 子智能体编排最密集的地方。编排者（orchestrator）依次派出三个子智能体：研究员（researcher）拿到一个干净的 200k token 窗口，专做技术研究，产出 RESEARCH.md；规划者（planner）拿到研究输出和需求做任务分解，产出一个或多个 PLAN.md；计划检查者（plan-checker）审查计划，趁执行前把歧义抓出来。

这里有条核心约束：每个计划必须能装进一个全新的上下文窗口。这不是建议，是设计原则。如果一个计划大到一个执行器的 200k 窗口都装不下它需要的全部上下文，那它就是太大了，必须拆。这条约束直接决定了任务分解的粒度。

产出工件：RESEARCH.md、若干 PLAN.md、VALIDATION.md（受奈奎斯特采样思想启发的验证策略），可选的 PATTERNS.md（代码库类比映射，告诉执行器"项目里类似的东西是怎么写的"）。

13.3.3 Execute——以并行波次运行，每个执行器从干净上下文起步

命令：/gsd-execute-phase <编号>，可带 --wave N、--gaps-only、--tdd。

执行阶段把计划分成波次（wave）：彼此独立的计划在同一波里并行跑，有依赖关系的排到后面的波。每个计划对应一个执行器（executor）子智能体，每个执行器都从一个干净的 200k token 上下文起步，它只拿到自己这个计划需要的工件，不被别的计划的细节污染。

这就是"并行波次"的意思：不是无脑并发，而是按依赖图分层并发。PLAN.md 的 YAML frontmatter 里就写着 wave、dependencies、modified_files、requirements、must_haves 这些字段，编排者据此排波。

产出：代码、原子化的 git 提交，以及每个计划的 <NN>-<PP>-SUMMARY.md 执行记录。

13.3.4 Verify——宣告完成前先诊断并生成修复计划

命令：/gsd-verify-work [N]。

一个验证者（verifier）子智能体检查实际构建出来的东西，看它对不对得上最初的目标、决策和计划。它做两道覆盖度检查，需求覆盖和决策覆盖：你在 Discuss 阶段定下的每条决策，都被执行了吗？

发现问题，它不止报告，还会派调试子智能体去诊断根因，并生成修复计划。这是 GSD 验证步骤最有牙齿的地方：验证的产出不是一句"还有 bug"，而是一份能直接执行的修复方案。产出工件：VERIFICATION.md（验证报告）、UAT.md（用户验收测试结果）。

13.3.5 Ship——创建 PR、归档阶段、推进下一阶段

命令：/gsd-ship，可带 --draft 创建草稿 PR。

最后一步：创建拉取请求、归档本阶段的所有工件、更新 STATE.md 把这个阶段标记为完成，然后对下一个阶段重复整套流程。

把五步连起来看，它和第 5 章 gstack 的 Sprint（Think → Plan → Build → Review → Test → Ship）、第 8 章 Goal Workflow 的 /prd → /goal → /review-it → /ship-it 是同一个谱系。GSD 的独特之处不在循环的形状，在它对每一步上下文的洁癖，这是下一节的事。

13.4 子智能体如何保持上下文整洁

GSD 把对抗上下文腐化的关键机制叫瘦编排者（Thin Orchestrator）模式。

主会话，也就是你直接对话的那个编排者，刻意保持精简。它只做四件事：加载上下文、派生专门的子智能体、收集结果、更新共享状态。它不自己做繁重研究，不自己写大段代码，不让执行细节堆进自己的窗口。

所有重活下放给子智能体，而每个子智能体都拿到一个干净的、最多 200k token 的上下文窗口，外加它这份活儿要用的工件，仅此而已。研究员只看研究要用的东西，执行器只看自己那个计划。任务和任务之间物理隔离，一个 Agent 的上下文不可能污染另一个。

这套设计的三条原则，GSD 文档总结得很干净。第一条，每个 Agent 一份新上下文（Fresh Context Per Agent），用来消除上下文腐化。第二条，瘦编排者（Thin Orchestrators），让主会话不囤积细节。第三条，文件化状态（File-Based State），让状态落盘，可持久、可检视。

回头看第 12 章会发现，这正是 12.3.5 讲的 maker-checker 分离的工业级落地：写代码的执行器和验证工作的验证者不是同一个上下文，甚至可以不是同一个模型。第 12 章把这个分离称作循环里最有用的结构性设计，GSD 把它从一个有用的设计，变成了贯穿整个工作流的强制纪律。

支撑这套编排的，是一个叫 gsd-tools.cjs 的 CLI 工具。它是 GSD 工作流操作的功能后端，把配置解析、模型解析、阶段查找、git 提交、摘要验证、状态管理、模板操作这些重复逻辑集中起来，替掉了散落在各个命令文件里的内联 bash。工作流文件（workflows/*.md）的典型套路是：用 gsd-tools.cjs init <workflow> 加载上下文，解析该用哪个模型，派生 agents/*.md 里定义的专门 Agent，收集结果，再用 gsd-tools.cjs state update 更新状态。

模型这件事 GSD 也做了精细化。它提供模型档位（model profiles），即 quality、balanced、budget、adaptive、inherit 五种预设策略，给不同的 Agent 分配不同的 Claude 模型。比如 quality 档给 gsd-planner 用 opus，budget 档给同一个 planner 用 sonnet。你还能按阶段类型（planning / research / execution）配模型，或者对单个 Agent 做覆盖。解析优先级是：单 Agent 覆盖大于阶段类型，阶段类型大于全局档位，全局档位大于运行时默认。这让"贵模型做规划、便宜模型做执行"这种成本意识的分工，变成一行配置，和第 14 章 improve 的思路殊途同归。

13.5 持久化工件：STATE.md 与 CONTEXT.md

第 12 章 12.3.6 那句话在这里落了地：Agent 会忘记，仓库不会。GSD 用一整套落盘的结构化工件，补上"会话间无共享记忆"这个病根。

所有工件都活在项目根目录的 .planning/ 文件夹里，它是项目状态的唯一真相来源。目录结构大致是这样：

.planning/
├── STATE.md                      # 项目的活档案 / 导航层
├── codebase/                     # 代码库地图（onboarding 时生成）
│   ├── STACK.md
│   ├── ARCHITECTURE.md
│   └── CONVENTIONS.md
├── phases/
│   └── <NN>-<slug>/              # 每个阶段一个目录
│       ├── CONTEXT.md            # Discuss 阶段的决策记录
│       ├── RESEARCH.md           # Plan 阶段的研究
│       ├── <NN>-<PP>-PLAN.md     # 可执行的工作单元
│       ├── VERIFICATION.md       # Verify 阶段的报告
│       └── ...
└── quick/                        # /gsd-quick 的临时任务

两个核心工件值得细看。

先是 STATE.md，项目的活档案、中央导航层。它记录当前里程碑、活跃阶段、已完成和待办的计划、进度指标、累积的决策，还有会话连续性笔记。所有工作流启动时先读 STATE.md，做完重要动作后写回。它就是第 12 章说的那根脊柱：明天早上的运行从今天停下的地方接着走，不是从零开始。gsd-tools.cjs 甚至提供 state get <section> 让你按小节查它。

再是 CONTEXT.md，Discuss 阶段捕获的实现决策。它包含阶段边界、带 D-NN 编号的锁定决策、规范文档引用、已有代码洞见、具体的灵感来源、推迟的想法。它被研究员、规划者、执行器共同消费，这意味着你在讨论阶段定的每条决策，会一路流到执行器手里，而且因为带着 D-NN 编号，验证阶段能逐条核对"决策覆盖"。

此外还有 PLAN.md（带 YAML frontmatter 的可执行工作单元）、RESEARCH.md、VALIDATION.md 等等，每种都有明确的 schema。这套工件体系的意义在于：知识不再活在某次对话的上下文窗口里，而是活在文件系统里，谁都能读，下次运行接着来。这就是"文件化状态"原则的全部价值。

13.6 上手与既有代码库的接入

全新项目用 /gsd-new-project 启动。但更现实的场景，是把 GSD 接到一个已经存在的代码库（brownfield）上，这条路径值得单独说。

第一步，让 GSD 读懂你的代码。命令 /gsd-map-codebase 会派出四个并行的 mapper 子智能体（技术栈 mapper、架构 mapper 等），分析代码库，在 .planning/codebase/ 下产出 STACK.md、ARCHITECTURE.md、CONVENTIONS.md 等结构化地图。

第二步，/gsd-new-project 聚焦于"你要加什么"，而不是重新发明已有的东西，它会从现有代码里抽取并验证需求。

第三步，进入正常的 Discuss → Plan 循环。此时代码库地图会喂给 /gsd-discuss-phase 和 /gsd-plan-phase，确保计划顺着既有的约定和结构走，而不是另起炉灶。

除了完整的五步循环，GSD 还留了轻量入口。/gsd-quick 用于小而临时的任务：它保留 GSD 的保证（原子提交、STATE.md 追踪），但默认跳过研究、讨论、计划检查、验证这些可选环节，只派 gsd-planner（quick 模式）和 gsd-executor。需要时可以用标志逐级把质量管线加回来，--discuss 加轻量讨论，--validate 加计划检查和验证，--full 开完整管线，--research 加聚焦研究。quick 任务存在 .planning/quick/，并更新 STATE.md 里的 "Quick Tasks Completed" 表。

这种"完整循环加快速通道"的双轨设计，对应的是真实开发里"大功能走流程、小修补抄近道"的常态。但就算抄近道，原子提交和状态追踪也不丢。

13.7 产品矩阵：从框架到独立 Harness

GSD 不止 gsd-core 一个产品。看清整个矩阵，才能看清它在第 10 章 Harness Engineering 谱系里的位置。

gsd-core 是本章主角，套在现有运行时上的工作流引擎。它本身不是 Harness，是给别人的 Harness 加一层可靠性。

gsd-pi 是一个 terminal-native 的独立自主 Agent，带 TUI 和 Web UI、worktree 隔离的 git、多模型路由，安装 npm install -g @opengsd/gsd-pi@latest。这才是一个完整的、独立的 Harness，对应第 10 章。

gsd-browser 是基于 CDP（Chrome DevTools Protocol）的浏览器自动化，提供 MCP server 模式和带版本的元素引用，标准动作流是 navigate → snapshot → act → assert → export，支持人工接管（human takeover），安装 npm install -g @opengsd/gsd-browser@latest。它给 GSD 的验证步骤提供了"行为级证据"：不是猜代码对不对，而是真的在浏览器里跑一遍、断言、留痕。

此外还有两个规划中的产品。gsd-workbench 是桌面端的本地工作区，管计划、backlog、证据、交付交接；gsd-cloud 是托管服务，提供跨设备的项目状态和团队可见性。

这个矩阵透露了 GSD 的野心：gsd-core 让任何运行时变可靠，gsd-pi 提供一个自带可靠性的运行时，gsd-browser 给验证装上眼睛，workbench 和 cloud 把单机循环扩展到团队。

13.8 与全书方法论的对接

GSD Core 几乎是前几章方法论的一次集大成，把分散的原则拧成了一套能直接安装的工程系统。

跟第 3 章 SDD 的关系最直接：GSD 本质就是规格驱动，但它把规格嵌进了阶段循环。CONTEXT.md 是讨论阶段的规格，PLAN.md 是执行阶段的规格，验证阶段逐条核对规格覆盖。规格不再是开头写一次的文档，而是贯穿循环的活合约。

跟第 5 章 gstack 同为"想、划、做、审、交"谱系，但 GSD 更偏执于上下文隔离。gstack 用角色覆盖来保证质量，GSD 用"每个 Agent 一份新上下文"来保证质量。跟第 8 章 Goal Workflow 高度同构，/prd → /goal → /review-it → /ship-it 几乎可以和 Discuss → Plan → Execute → Verify → Ship 对位，GSD 可以看作 Goal Workflow 加了一套强制的文件化状态和子智能体编排。

跟第 10 章 Harness Engineering，gsd-pi 是一个完整的独立 Harness，gsd-core 则是"给别人的 Harness 加可靠性层"的另一种工程实践。

最深的一层是跟第 12 章 Loop Engineering 的对接。GSD 是 12.3 那"五个原语加状态记忆"的一次工业级落地：子智能体加持久化工件加独立验证门禁，再配上 worktree 隔离和模型路由。第 12 章讲的是循环的原理，GSD 给了你一个能直接 npx 装上的循环。

最后是跟第 14 章 improve、第 15 章 Compound Engineering 的关系，三者都信"规划重于执行"。improve 把成本分工压到极致，强模型审计、弱模型执行；Compound Engineering 在末端加了知识复利；GSD 则把重心放在跨会话的上下文工程和验证证据上。

13.9 本章小结

GSD Core 把一个容易被忽视的工程真相摆到了中心：AI 编程在规模上的失败，大多不是模型不够聪明，而是上下文管理不善。它给这个真相起了名字，叫上下文腐化，再用三样东西系统性地反击它。

第一样是阶段循环（Discuss → Plan → Execute → Verify → Ship），每次只推进一个阶段，把工作切成上下文窗口装得下的块。第二样是子智能体加瘦编排者，每个 Agent 一份干净的 200k 上下文，主会话不囤积细节，maker 和 checker 物理隔离。第三样是持久化工件（STATE.md、CONTEXT.md、PLAN.md 等），把状态落盘到 .planning/，让知识跨越会话边界存续。

它最聪明的定位是：不取代你的 Agent，而是让你的 Agent 变可靠。同一个 Claude Code，套上 GSD Core，就从一个聊到第五十轮开始漂移的对话伙伴，变成一个有计划、可恢复、有验证证据的工程流水线。这也正是它那句标语的全部意思：Claude Code 很强大，GSD Core 让它变得可靠。

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

鸟窝

目录 [−]

13.1 GSD 是什么：Git. Ship. Done.

13.2 核心问题：上下文腐化

13.3 五步阶段循环：Discuss → Plan → Execute → Verify → Ship

13.3.1 Discuss——动手规划前先把实现决策定下来

13.3.2 Plan——研究、分解，并验证计划装得进一个全新上下文窗口

13.3.3 Execute——以并行波次运行，每个执行器从干净上下文起步

13.3.4 Verify——宣告完成前先诊断并生成修复计划

13.3.5 Ship——创建 PR、归档阶段、推进下一阶段

13.4 子智能体如何保持上下文整洁

13.5 持久化工件：STATE.md 与 CONTEXT.md

13.6 上手与既有代码库的接入

13.7 产品矩阵：从框架到独立 Harness

13.8 与全书方法论的对接

13.9 本章小结