Claude Skill Creator 2.0 完整上手攻略

来源 https://zhuanlan.zhihu.com/p/2020823276780273874

最近，Anthropic 更新了他的技能开发工具 skill-creator。以前它的能力比较基础，主要就是帮你生成文件，后面的流程基本要靠自己去摸索。

你只能凭感觉写指令，效果好不好也不太可控。整个过程更像是在碰运气，而不是在做工程。它最多只能帮你起个头，却没办法验证技能是否真的生效。一旦跑出问题，就只能靠猜，再一点点去调。

说白了，当时缺的就是一套像样的验证手段。做完一个技能，只能多跑几次，感觉差不多就继续往前。一旦模型变化或场景复杂一点，问题往往要等结果出错了才会暴露。

这次更新正好解决了这个问题。现在你有了真正的测试能力、可量化的结果评分、盲测 A/B 对比以及自动优化触发机制的工具。最关键的是：这一切都不需要写代码。

Skill Creator 2.0 的核心更新

skill-creator 本身就是一个 Skill，它的目的是帮助你构建、迭代和发布其他 Skill。这次更新主要增加了三个核心功能：

1. 评测功能：让技能可验证

现在，你可以让 Claude 自动生成测试输入，在启用技能的情况下运行，并检查输出是否符合预期——包括语气、结构和格式。

结果也不再是「看起来还行」，而是可量化的：通过率、失败项，以及具体偏差。

基于此，优化过程变成一个标准闭环：

运行评测：“使用 Skill Creator 对 [技能名称] 运行评估”
分析失败：查看错误报告
定向修复：让 Claude 更新技能，解决具体问题
重新评测：再次运行，直到全部通过

关键变化在于：你不再是反复试错，而是在做一轮一轮可验证的迭代。

以后只要觉得结果不太对，花两分钟跑一遍评测，就能快速定位问题。

2. A/B 基准测试：避免过时技能拖慢输出

skill-creator 支持 A/B 对比测试，帮助你发现那些开始「拖后腿」的技能。

使用方式：

发起指令：“使用 Skill Creator 对 [技能名称] 进行基准测试”
双重测试：同一组输入，分别在「加载技能 / 不加载技能」下运行
盲审评估：独立智能体并排评估两份输出，消除偏好偏差
结果报告：给出清晰对比，告诉你哪一版更好

你还可以对比同一技能的不同版本（如「旧版 vs 新版」），验证改动是否真正优化了输出。

拿到结果后的决策也很简单：

原生 Claude 胜出 → 直接删除技能
技能略微领先 → 保留，但下次模型更新后再测
技能大幅领先 → 继续使用

关键点在于：模型在进步，而你的技能可能在退化。

所以，每次 Claude 大版本更新后，第一件事就应该是跑一遍这个测试。只需要几分钟，就能避免长期使用那些悄悄降低输出质量的过时技能。

3. 描述词优化：解决技能失效问题

评测衡量的是输出质量，但前提是技能必须在正确的时机被触发。随着你拥有的技能越来越多，描述词的准确性变得至关重要：描述太宽泛，会导致误触发；描述太狭窄，技能可能永远无法唤醒。

skill-creator 现在可以帮你调优描述词，实现更可靠的触发。它会根据示例提示词分析当前描述，并提供修改建议，从而同时减少误报（技能不该触发却触发）和漏报（技能本应触发却未触发）。

使用方法：

发起优化：“使用 Skill Creator 优化 [技能名称] 的描述词”
多场景压力测试：用大量提示词测试当前描述
精准激活校验：验证技能在应触发请求中是否激活，在无关请求中是否保持静默
重写描述逻辑：自动更新描述词，让技能在应触发时触发，不该动时「保持隐身」

Anthropic 在自家官方技能上测试发现，6 个技能中有 5 个触发准确率明显提升。

即便是 Claude 的开发团队，也会在自己写的技能上遇到同样问题。如果你手上有好几个技能，这可能是让所有技能瞬间更可靠的最快方法。

多智能体支持：更快、更可靠的评测

顺序运行评测不仅耗时，而且测试用例之间的上下文可能互相干扰，造成「信息污染」。

skill-creator 现在支持多智能体（Multi-agent）运行，可以并行启动独立智能体执行评测——每个智能体都在干净的上下文中，拥有独立的 Token 消耗和耗时统计。

优势：速度更快，同时彻底杜绝交叉污染。

同时，A/B 对比新增评审智能体（Comparator agents）：无论是对比两个技能版本，还是「有技能 vs 无技能」，评审智能体都会在不知版本来源的情况下进行盲审裁决，让你明确知道修改是否真正优化了技能。

快速上手指南

快速安装

安装很简单，不需要额外的配置，也没有复杂的依赖。

整个过程在 Claude Code 里完成，只要两步。

步骤一：把插件加入市场

在 Claude Code 的终端中执行：

/plugin marketplace add anthropics/skills

步骤二：安装插件

/plugin install document-skills@anthropic-agent-skills

安装完成后，重启 Claude Code，就可以使用了。

如果你以前安装过，需要先更新插件。

1. 实战指南：构建你的第一个技能

下面通过一个简单的示例，演示创建技能的完整工作流程。

步骤一：描述需求

使用 skill-creator 创建一个代码评审技能

运行 Claude Code 命令：

评审重点：

触发场景：

输出格式：

步骤二：创建技能

创建 SKILL.md：

步骤三：评测技能

生成 evals.json 文件，创建测试用例：

启动评估测试：

运行 6 个智能体：

同时启动 6 个并行智能体：

3 个运行带技能的测试
3 个运行不带技能的相同测试（基线测试）

步骤四：可视化对比（评估查看器）

Claude 会自动生成一个基于 HTML 的评估查看器，并在浏览器中打开。

带技能：启用技能后的生成结果

不带技能：原生 Claude 的生成结果

生成评估报告：

步骤五：完成验收

技能创建完成：

2. 实战指南：评估现有技能

下面通过一个简单的示例，演示如何评估现有技能。

输入评估提示词：

使用 Skill Creator 对 superpowers:test-driven-development 运行评估

运行 Claude Code 命令：

生成 evals.json 文件，创建测试用例：

启动评估测试：

同时启动 6 个并行智能体：

生成评估报告：

3. 实战指南：优化现有技能描述词

输入优化提示词：

使用 Skill Creator 优化 superpowers:test-driven-development 的描述词

运行 Claude Code 命令：

生成优化评估集：

启动优化循环：

查看监控进度：

打开评估审查页面：

审查查询：

优化完成：

高级用户技巧

用脚本做关键校验

写在 SKILL.md 里的指令，本质上还是交给 Claude 去「理解」，执行时多少会有弹性。大多数场景问题不大，但一旦涉及必须稳定、不能出错的校验逻辑，这种弹性反而会带来风险。

更稳的做法是，把这些关键检查放进脚本里。

脚本（Python / Bash）不会做解释，只会执行：

条件是否满足
数据是否完整
格式是否正确

通过就是通过，不通过就是失败。Claude 只需要根据结果继续或中断，不需要再参与判断。

使用方式也很简单：把脚本放在技能目录的 scripts/ 里，然后在 SKILL.md 中调用它。运行技能时，Claude 会执行脚本，并根据返回结果决定下一步。

your-skill/
├── SKILL.md
└── scripts/
    └── validate.py

这种方式适合处理：

必填字段校验
数据格式检查
文件结构验证
任何「不能模糊处理」的步骤

一个典型例子是 Anthropic 的 PDF 技能。早期它需要根据描述去「推测」表单坐标，结果不稳定；后来把这部分逻辑放进脚本里做精确计算，问题基本消失。

另外一个实际的好处是：你不一定需要自己写脚本。可以直接问 Claude：「这个技能适合用脚本吗？」如果需要，它通常可以帮你生成并整理好，你只需要在上传技能时把 scripts/ 一起带上即可。

保持 SKILL.md 精简

每次技能触发时，Claude 都会加载完整的 SKILL.md。这意味着文件越长，开销越大——写 2000 字，就相当于每次多消耗 2000 字的上下文。

更好的做法是把内容拆开：
详细文档、示例、API 说明，以及只在特定场景才需要的内容，都放到 references/ 目录里，在 SKILL.md 中按需引用，并说明什么时候去读。

经验上：

超过 5000 字，性能就开始明显下降
控制在 500 行以内，通常比较合理

一个臃肿的 SKILL.md，会在每次触发时持续拖慢性能。能简则简，详细内容放到 references/。

设计可协作的技能：组合，而不是堆叠

Claude 可以同时加载多个技能，这带来两个关键点。

第一，是约束。

避免写全局生效的指令，比如「必须一直用列表回答」或「绝对不能用正式语气」。这类规则很容易和其他技能冲突。更稳的方式是收紧边界：一个技能只解决一个具体问题。

第二，是组合。

你可以在 SKILL.md 里调用其他技能，把它们串成一个流程。例如：

当内容草稿完成后，调用 writing-guard 技能进行检查，再返回结果

执行过程中，Claude 会按步骤加载对应技能，把它们接入当前流程。

这样可以把技能拆成多个模块：

一个负责生成内容
一个负责语气调整
一个负责格式整理

彼此接力，而不是把所有逻辑堆进一个臃肿的 SKILL.md。

如果需要更强的控制，可以使用 frontmatter 中的 agent 字段，显式创建子代理来执行某个技能。这种方式能进一步隔离上下文，让每一步更可控。

添加负触发器：减少误触发

如果技能总是在不该触发的时候被调用，通常是描述写得太泛。一个简单有效的做法，是在描述里加上明确的排除条件，也就是「负触发器」。

比如：

不要用于简单数据查询或一般问题，仅用于完整报告生成流程

这样可以直接告诉 Claude：哪些场景不需要这个技能。

可以简单记住三点：

描述太模糊 → 容易误触发
描述太严格 → 很难触发
负触发器的作用 → 在不缩小范围的前提下，把不相关的情况排除掉

本质上，它是在帮你把边界「收紧」，而不是一味缩小范围。

在 frontmatter 中做版本管理

给技能加个版本号，是个很容易忽略的小细节，但用起来很值。

在 frontmatter 里加一个 version 字段：

metadata:
  version: 1.2.0
  author: Your Name

这个字段在这些时候会特别有用：

模型更新后重新跑基准测试
修改技能后对比前后效果
回头分析哪次改动带来了提升，哪次引入了问题

没有版本号的话，这些测试结果基本就是一堆「对不上号的记录」。

控制活跃技能数量

同时启用过多技能，会明显拖慢性能。

原因很简单：每次对话，Claude 都要把所有技能的描述加载进上下文，用来判断哪些该触发。技能一多，这部分开销就会迅速累积。

经验上：

超过 20～50 个技能，性能开始明显下降
技能越多，判断成本越高，响应越慢

更好的做法是：

只保留当前任务相关的技能
其他技能按需启用，而不是一直开着

简单说，不是技能越多越好，而是让合适的技能在合适的时候出现。

在多服务工作流中明确调用顺序

当一个技能需要同时调用多个 MCP 服务时，顺序和数据流必须写清楚，不要让 Claude 自己去猜。

更稳妥的写法是：

明确拆分每个阶段（step1 / step2 / step3）
指定每一步的输出，如何传递给下一步
在关键节点加入验证步骤，确认结果再继续

例如：

第一步获取数据
第二步处理数据（使用第一步的输出）
第三步生成结果前先校验

为什么要这么做？

因为在多 MCP 场景下，一点点模糊都会被放大：

顺序不清 → 调用链容易错位
数据不明确 → 上下文传递容易出错
缺少校验 → 错误会一路传递到最终结果

这些问题在多步骤流程中是「累积放大」的，而不是单点出错。

简单来说：步骤越多，就越要把流程写清楚，而不是依赖模型理解。

总结

Anthropic 这次更新给技能开发带来了评测与改进循环。也就是说，开发流程不再只是写完技能就算了，而是覆盖了测试、测量和优化的完整生命周期。

技能不再只是写完就用的提示词，而是可以测试、可验证的软件制品（Software Artifacts）。这样一来，我们不必再靠猜测去判断技能是否可靠，而是可以构建真正可用、可信赖的 AI 工具。

Anthropic 提供的测试和修复工具，让开发专业智能体技能变得可行。如果你也想要打造可靠的 AI 工具，现在就可以开始使用这个全新的技能开发流程。

====== End

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

博客园 - lsgxeva