惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Simon Willison's Weblog
Simon Willison's Weblog
P
Privacy International News Feed
www.infosecurity-magazine.com
www.infosecurity-magazine.com
T
Troy Hunt's Blog
Hacker News - Newest:
Hacker News - Newest: "LLM"
Attack and Defense Labs
Attack and Defense Labs
S
Secure Thoughts
V2EX - 技术
V2EX - 技术
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
O
OpenAI News
Cloudbric
Cloudbric
Google Online Security Blog
Google Online Security Blog
Schneier on Security
Schneier on Security
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Help Net Security
Help Net Security
Cyberwarzone
Cyberwarzone
G
GRAHAM CLULEY
L
Lohrmann on Cybersecurity
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Spread Privacy
Spread Privacy
NISL@THU
NISL@THU
N
News and Events Feed by Topic
T
Tenable Blog
S
Security @ Cisco Blogs
N
News and Events Feed by Topic
The Hacker News
The Hacker News
C
CXSECURITY Database RSS Feed - CXSecurity.com
宝玉的分享
宝玉的分享
月光博客
月光博客
酷 壳 – CoolShell
酷 壳 – CoolShell
美团技术团队
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Google DeepMind News
Google DeepMind News
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
T
Tailwind CSS Blog
V
Visual Studio Blog
P
Proofpoint News Feed
Webroot Blog
Webroot Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
博客园 - 三生石上(FineUI控件)
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Jina AI
Jina AI
雷峰网
雷峰网
T
The Blog of Author Tim Ferriss
Hugging Face - Blog
Hugging Face - Blog
腾讯CDC
L
LangChain Blog
The Register - Security
The Register - Security
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
博客园 - 聂微东

Measure Zero

读 Codex 源码 - memory 机制 读论文 - EnterpriseRAG-Bench 【机翻】语音智能体基础 101:能够与人对答的 AI 背后的架构 【机翻】语音智能体中的记忆问题比你想象的更难 读 Claude Code 源码 - 若干小功能 (recap, suggestion, insights) 【机翻】大多数 AI 产品不应该推出记忆功能 去年遇到的一个正则的坑 如何评估 skill Langchain 团队如何评估与优化 agent harness 读 Claude Code 源码 - memory 机制续篇 读 Claude Code 源码 - Web Search & Web Fetch 难倒各路大模型的两道简单 SQLite 问题 ModernBERT
Harness Cheatsheet
Shiina · 2026-04-13 · via Measure Zero

源于一个比喻, 模型是 horse, 人是 rider, 中间那层是 harness. 从字面来看 harness 是指为确保模型按预期行为运行而构建的约束框架与支撑体系. 至少可以从两个角度理解.

  • 产品侧: Agent 产品 (如 Claude Code) 自己做的 harness (Anthropic 在 Scaling Managed Agents 进一步把有关大模型决策的部分称为 harness, 而 session, tools, sandbox 等独立为其他模块).
  • 用户侧: 开发者使用 coding agent 时为了保证复杂项目受控做的脚手架 (比如 SDD, ralph loop 等).

随着模型能力变化, harness 也需要改变, 如 Harness design for long-running application development.

用户侧 cheatsheet

维度 实践动作 核心目的
开发流 SDD (规格驱动) / TDD (测试驱动)  
上下文 CLAUDE.md / AGENTS.md 提供项目结构, 开发流程与 Dos/Don’ts 约束
文档同步 文档代码同步  
状态控制 进度状态记录 / 会话交接文档 (handoff) 确保新 session 无缝衔接
原子性 一次一任务 / 频繁 git 提交 降低任务难度, 方便回滚与审计
验证 独立 reviewer / 自动测试 确保 Agent 输出符合验收标准

更多参考可见

产品侧 cheatsheet

  • 控制: 循环, 编排
    • 可靠性: 错误处理, 重试, 超时, 熔断, fallback
    • 状态管理, 持久化, 文件回滚
    • subagent, hook
    • 权限控制, rate limit
    • 安全过滤, guardrail
    • 并发执行, 异步
  • 上下文注入: system prompt, memory, skills
    • memory: 对话上下文, session 级, 项目级, 全局, 外部知识库等
    • 压缩
    • 输入验证
  • 动作: 工具, 沙盒, 浏览器等
  • 可观测性
    • 成本优化: prompt cache, 缓存等
    • logging, tracing, metrics
    • 告警