























来源 https://zhuanlan.zhihu.com/p/2020823276780273874
最近,Anthropic 更新了他的技能开发工具 skill-creator。以前它的能力比较基础,主要就是帮你生成文件,后面的流程基本要靠自己去摸索。
你只能凭感觉写指令,效果好不好也不太可控。整个过程更像是在碰运气,而不是在做工程。它最多只能帮你起个头,却没办法验证技能是否真的生效。一旦跑出问题,就只能靠猜,再一点点去调。
说白了,当时缺的就是一套像样的验证手段。做完一个技能,只能多跑几次,感觉差不多就继续往前。一旦模型变化或场景复杂一点,问题往往要等结果出错了才会暴露。
这次更新正好解决了这个问题。现在你有了真正的测试能力、可量化的结果评分、盲测 A/B 对比以及自动优化触发机制的工具。最关键的是:这一切都不需要写代码。
skill-creator 本身就是一个 Skill,它的目的是帮助你构建、迭代和发布其他 Skill。这次更新主要增加了三个核心功能:
现在,你可以让 Claude 自动生成测试输入,在启用技能的情况下运行,并检查输出是否符合预期——包括语气、结构和格式。
结果也不再是「看起来还行」,而是可量化的:通过率、失败项,以及具体偏差。
基于此,优化过程变成一个标准闭环:
“使用 Skill Creator 对 [技能名称] 运行评估”关键变化在于:你不再是反复试错,而是在做一轮一轮可验证的迭代。
以后只要觉得结果不太对,花两分钟跑一遍评测,就能快速定位问题。
skill-creator 支持 A/B 对比测试,帮助你发现那些开始「拖后腿」的技能。
使用方式:
“使用 Skill Creator 对 [技能名称] 进行基准测试”你还可以对比同一技能的不同版本(如「旧版 vs 新版」),验证改动是否真正优化了输出。
拿到结果后的决策也很简单:
关键点在于:模型在进步,而你的技能可能在退化。
所以,每次 Claude 大版本更新后,第一件事就应该是跑一遍这个测试。只需要几分钟,就能避免长期使用那些悄悄降低输出质量的过时技能。
评测衡量的是输出质量,但前提是技能必须在正确的时机被触发。随着你拥有的技能越来越多,描述词的准确性变得至关重要:描述太宽泛,会导致误触发;描述太狭窄,技能可能永远无法唤醒。
skill-creator 现在可以帮你调优描述词,实现更可靠的触发。它会根据示例提示词分析当前描述,并提供修改建议,从而同时减少误报(技能不该触发却触发)和漏报(技能本应触发却未触发)。
使用方法:
“使用 Skill Creator 优化 [技能名称] 的描述词”Anthropic 在自家官方技能上测试发现,6 个技能中有 5 个触发准确率明显提升。
即便是 Claude 的开发团队,也会在自己写的技能上遇到同样问题。如果你手上有好几个技能,这可能是让所有技能瞬间更可靠的最快方法。
顺序运行评测不仅耗时,而且测试用例之间的上下文可能互相干扰,造成「信息污染」。
skill-creator 现在支持多智能体(Multi-agent) 运行,可以并行启动独立智能体执行评测——每个智能体都在干净的上下文中,拥有独立的 Token 消耗和耗时统计。
优势:速度更快,同时彻底杜绝交叉污染。
同时,A/B 对比新增评审智能体(Comparator agents):无论是对比两个技能版本,还是「有技能 vs 无技能」,评审智能体都会在不知版本来源的情况下进行盲审裁决,让你明确知道修改是否真正优化了技能。

安装很简单,不需要额外的配置,也没有复杂的依赖。
整个过程在 Claude Code 里完成,只要两步。
在 Claude Code 的终端中执行:
/plugin marketplace add anthropics/skills
/plugin install document-skills@anthropic-agent-skills
安装完成后,重启 Claude Code,就可以使用了。
如果你以前安装过,需要先更新插件。
下面通过一个简单的示例,演示创建技能的完整工作流程。
使用 skill-creator 创建一个代码评审技能
运行 Claude Code 命令:

评审重点:

触发场景:

输出格式:

创建 SKILL.md:

生成 evals.json 文件,创建测试用例:

启动评估测试:

运行 6 个智能体:

同时启动 6 个并行智能体:
Claude 会自动生成一个基于 HTML 的评估查看器,并在浏览器中打开。
带技能:启用技能后的生成结果

不带技能:原生 Claude 的生成结果

生成评估报告:

技能创建完成:

下面通过一个简单的示例,演示如何评估现有技能。
输入评估提示词:
使用 Skill Creator 对 superpowers:test-driven-development 运行评估
运行 Claude Code 命令:

生成 evals.json 文件,创建测试用例:

启动评估测试:

同时启动 6 个并行智能体:

生成评估报告:

输入优化提示词:
使用 Skill Creator 优化 superpowers:test-driven-development 的描述词
运行 Claude Code 命令:

生成优化评估集:

启动优化循环:

查看监控进度:

打开评估审查页面:

审查查询:

优化完成:

写在 SKILL.md 里的指令,本质上还是交给 Claude 去「理解」,执行时多少会有弹性。大多数场景问题不大,但一旦涉及必须稳定、不能出错的校验逻辑,这种弹性反而会带来风险。
更稳的做法是,把这些关键检查放进脚本里。
脚本(Python / Bash)不会做解释,只会执行:
通过就是通过,不通过就是失败。Claude 只需要根据结果继续或中断,不需要再参与判断。
使用方式也很简单:把脚本放在技能目录的 scripts/ 里,然后在 SKILL.md 中调用它。运行技能时,Claude 会执行脚本,并根据返回结果决定下一步。
your-skill/
├── SKILL.md
└── scripts/
└── validate.py
这种方式适合处理:
一个典型例子是 Anthropic 的 PDF 技能。早期它需要根据描述去「推测」表单坐标,结果不稳定;后来把这部分逻辑放进脚本里做精确计算,问题基本消失。
另外一个实际的好处是:你不一定需要自己写脚本。可以直接问 Claude:「这个技能适合用脚本吗?」如果需要,它通常可以帮你生成并整理好,你只需要在上传技能时把 scripts/ 一起带上即可。
每次技能触发时,Claude 都会加载完整的 SKILL.md。这意味着文件越长,开销越大——写 2000 字,就相当于每次多消耗 2000 字的上下文。
更好的做法是把内容拆开:
详细文档、示例、API 说明,以及只在特定场景才需要的内容,都放到 references/ 目录里,在 SKILL.md 中按需引用,并说明什么时候去读。
经验上:
一个臃肿的SKILL.md,会在每次触发时持续拖慢性能。能简则简,详细内容放到references/。
Claude 可以同时加载多个技能,这带来两个关键点。
第一,是约束。
避免写全局生效的指令,比如「必须一直用列表回答」或「绝对不能用正式语气」。这类规则很容易和其他技能冲突。更稳的方式是收紧边界:一个技能只解决一个具体问题。
第二,是组合。
你可以在 SKILL.md 里调用其他技能,把它们串成一个流程。例如:
当内容草稿完成后,调用 writing-guard 技能进行检查,再返回结果
执行过程中,Claude 会按步骤加载对应技能,把它们接入当前流程。
这样可以把技能拆成多个模块:
彼此接力,而不是把所有逻辑堆进一个臃肿的 SKILL.md。
如果需要更强的控制,可以使用 frontmatter 中的 agent 字段,显式创建子代理来执行某个技能。这种方式能进一步隔离上下文,让每一步更可控。
如果技能总是在不该触发的时候被调用,通常是描述写得太泛。一个简单有效的做法,是在描述里加上明确的排除条件,也就是「负触发器」。
比如:
不要用于简单数据查询或一般问题,仅用于完整报告生成流程
这样可以直接告诉 Claude:哪些场景不需要这个技能。
可以简单记住三点:
本质上,它是在帮你把边界「收紧」,而不是一味缩小范围。
给技能加个版本号,是个很容易忽略的小细节,但用起来很值。
在 frontmatter 里加一个 version 字段:
metadata:
version: 1.2.0
author: Your Name
这个字段在这些时候会特别有用:
没有版本号的话,这些测试结果基本就是一堆「对不上号的记录」。
同时启用过多技能,会明显拖慢性能。
原因很简单:每次对话,Claude 都要把所有技能的描述加载进上下文,用来判断哪些该触发。技能一多,这部分开销就会迅速累积。
经验上:
更好的做法是:
简单说,不是技能越多越好,而是让合适的技能在合适的时候出现。
当一个技能需要同时调用多个 MCP 服务时,顺序和数据流必须写清楚,不要让 Claude 自己去猜。
更稳妥的写法是:
例如:
为什么要这么做?
因为在多 MCP 场景下,一点点模糊都会被放大:
这些问题在多步骤流程中是「累积放大」的,而不是单点出错。
简单来说:步骤越多,就越要把流程写清楚,而不是依赖模型理解。
Anthropic 这次更新给技能开发带来了评测与改进循环。也就是说,开发流程不再只是写完技能就算了,而是覆盖了测试、测量和优化的完整生命周期。
技能不再只是写完就用的提示词,而是可以测试、可验证的软件制品(Software Artifacts)。这样一来,我们不必再靠猜测去判断技能是否可靠,而是可以构建真正可用、可信赖的 AI 工具。
Anthropic 提供的测试和修复工具,让开发专业智能体技能变得可行。如果你也想要打造可靠的 AI 工具,现在就可以开始使用这个全新的技能开发流程。
====== End
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。