Harness Cheatsheet - 惯性聚合

推荐订阅源

Simon Willison's Weblog

Privacy International News Feed

www.infosecurity-magazine.com

Troy Hunt's Blog

Hacker News - Newest: "LLM"

Attack and Defense Labs

Secure Thoughts

cs.AI updates on arXiv.org

Google Online Security Blog

Schneier on Security

cs.CV updates on arXiv.org

Help Net Security

Lohrmann on Cybersecurity

Threat Intelligence Blog | Flashpoint

News and Events Feed by Topic

Security @ Cisco Blogs

News and Events Feed by Topic

The Hacker News

CXSECURITY Database RSS Feed - CXSecurity.com

宝玉的分享

酷壳 – CoolShell

美团技术团队

奇客Solidot–传递最新科技情报

Google DeepMind News

钛媒体：引领未来商业与生活新知

Tailwind CSS Blog

Visual Studio Blog

Proofpoint News Feed

让小产品的独立变现更简单 - ezindie.com

博客园 - 三生石上(FineUI控件)

cs.CL updates on arXiv.org

The Blog of Author Tim Ferriss

Hugging Face - Blog

The Register - Security

OSCHINA 社区最新新闻

博客园 - 聂微东

Measure Zero

读 Codex 源码 - memory 机制读论文 - EnterpriseRAG-Bench 【机翻】语音智能体基础 101：能够与人对答的 AI 背后的架构【机翻】语音智能体中的记忆问题比你想象的更难读 Claude Code 源码 - 若干小功能 (recap, suggestion, insights) 【机翻】大多数 AI 产品不应该推出记忆功能去年遇到的一个正则的坑如何评估 skill Langchain 团队如何评估与优化 agent harness 读 Claude Code 源码 - memory 机制续篇读 Claude Code 源码 - Web Search & Web Fetch 难倒各路大模型的两道简单 SQLite 问题 ModernBERT

Harness Cheatsheet

Shiina · 2026-04-13 · via Measure Zero

源于一个比喻, 模型是 horse, 人是 rider, 中间那层是 harness. 从字面来看 harness 是指为确保模型按预期行为运行而构建的约束框架与支撑体系. 至少可以从两个角度理解.

产品侧: Agent 产品 (如 Claude Code) 自己做的 harness (Anthropic 在 Scaling Managed Agents 进一步把有关大模型决策的部分称为 harness, 而 session, tools, sandbox 等独立为其他模块).
用户侧: 开发者使用 coding agent 时为了保证复杂项目受控做的脚手架 (比如 SDD, ralph loop 等).

随着模型能力变化, harness 也需要改变, 如 Harness design for long-running application development.

用户侧 cheatsheet

维度	实践动作	核心目的
开发流	SDD (规格驱动) / TDD (测试驱动)
上下文	`CLAUDE.md` / `AGENTS.md`	提供项目结构, 开发流程与 Dos/Don’ts 约束
文档同步	文档代码同步
状态控制	进度状态记录 / 会话交接文档 (handoff)	确保新 session 无缝衔接
原子性	一次一任务 / 频繁 git 提交	降低任务难度, 方便回滚与审计
验证	独立 reviewer / 自动测试	确保 Agent 输出符合验收标准

更多参考可见

产品侧 cheatsheet

控制: 循环, 编排
- 可靠性: 错误处理, 重试, 超时, 熔断, fallback
- 状态管理, 持久化, 文件回滚
- subagent, hook
- 权限控制, rate limit
- 安全过滤, guardrail
- 并发执行, 异步
上下文注入: system prompt, memory, skills
- memory: 对话上下文, session 级, 项目级, 全局, 外部知识库等
- 压缩
- 输入验证
动作: 工具, 沙盒, 浏览器等
可观测性
- 成本优化: prompt cache, 缓存等
- logging, tracing, metrics
- 告警

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。