惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Y
Y Combinator Blog
博客园 - 司徒正美
TaoSecurity Blog
TaoSecurity Blog
Martin Fowler
Martin Fowler
T
Threat Research - Cisco Blogs
Blog — PlanetScale
Blog — PlanetScale
S
Secure Thoughts
博客园 - 三生石上(FineUI控件)
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
K
Kaspersky official blog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Cisco Talos Blog
Cisco Talos Blog
H
Help Net Security
博客园 - 叶小钗
爱范儿
爱范儿
GbyAI
GbyAI
I
Intezer
M
MIT News - Artificial intelligence
Latest news
Latest news
Schneier on Security
Schneier on Security
T
Tor Project blog
Simon Willison's Weblog
Simon Willison's Weblog
I
InfoQ
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
C
CXSECURITY Database RSS Feed - CXSecurity.com
罗磊的独立博客
N
News and Events Feed by Topic
T
The Blog of Author Tim Ferriss
V2EX - 技术
V2EX - 技术
B
Blog
T
Tailwind CSS Blog
N
Netflix TechBlog - Medium
Security Latest
Security Latest
V
V2EX
F
Fortinet All Blogs
Forbes - Security
Forbes - Security
Application and Cybersecurity Blog
Application and Cybersecurity Blog
The Hacker News
The Hacker News
Scott Helme
Scott Helme
P
Privacy International News Feed
P
Palo Alto Networks Blog
H
Heimdal Security Blog
C
Cisco Blogs
T
The Exploit Database - CXSecurity.com
博客园 - Franky
酷 壳 – CoolShell
酷 壳 – CoolShell
G
Google Developers Blog
W
WeLiveSecurity
L
LINUX DO - 最新话题

博客园_首页

Linux实操--组管理、权限管理和定时任务 Java + EasyExcel 实现单个接口导出多个Excel Mem0 源码解析系列(二):提示词工程的深度剖析 Openclaw TaskFlow究竟是什么?和普通Skill技能有什么区别 博文阅读密码验证 - 博客园 嘉立创开源:应该是全网MicroPython教程最多的开发板 Hermes Agent 集成实践:从协议到生产 2026年AI编程工具横评:Cursor、Codex、Claude Code、Zed、Windsurf Java程序员必看的RAG入门教程 2026 AI效率神器:Superpowers + Claude Code 保姆级教程 本地大模型部署全攻略:从 0 到 1 玩转 Ollama 【从0到1构建一个ClaudeAgent】内存管理-上下文压缩 .NET 高级开发 | 设计、实现一个事件总线框架 电子小白入门之NE555 3. WorkBuddy:隐藏玩法,一键召唤专家,让 AI 以"专家身份"给你干活 和AI一起搞事情#3:Claude Teammate 游戏开发翻车实录 【OpenClaw】通过 Nanobot 源码学习架构---(7)Memory C# .NET 周刊|2026年3月3期 我在 Debian 11 上把 K8s 单机搭起来了,过程没你想的那么顺(/opt 目录版) 深度学习进阶(七)Data-efficient Image Transformer CLI+Skill搭建浏览器AI自动化框架,告别一切重复枯燥任务 告别Token账单无底洞:OpenClaw本地部署,重塑企业数据主权的唯一解 FastAPI+Vue:文件分片上传+秒传+断点续传,这坑我帮你踩平了! SBTI 爆火后,我做了个程序员版的 CBTI。。已开源 + 附开发过程 多模态检索开始进入工程期:用 Sentence Transformers 搭建可落地的 Multimodal RAG 100多行代码实现一个最简单的Agent(用ReAct) Claude Code 通关手册(八):推荐 5 个 Hooks,代码质量提升 3 倍 老板:“有人截图了!”。安全部门:“收到,马上查暗水印!” - why技术 技术之外,皆是人间 C#/.NET/.NET Core技术前沿周刊 | 第 69 期(2026年4.01-4.12) Snack JSONPath 项目架构分析 Claude Code Buddy 小析:一个非核心功能,如何体现产品的细节完成度 AI新时代下的图床管理方案-Cloudflare图床+MCP+Skills方案指南 化繁为简:顺丰速运App如何通过 HarmonyOS SDK实现专业级空间测量 从零实现富文本编辑器#13-React非编辑节点的内容渲染 AI开发-python-langchain框架(3-23-OpenAI Functions风格Tool Calling智能助手) .NET + AI 进阶实战:基于类的技能开发 - 打造可治理的 Agent 能力模块 【从0到1构建一个ClaudeAgent】规划与协调-技能 上周热点回顾(4.6-4.12) 电子小白的工具三件套:面包板、杜邦线、万能板 单表五亿数据的查询优化 | Mysql、StarRocks 2. WorkBuddy:从“我是谁”到“帮我干活” C# 如何减少代码运行时间:7 个实战技巧 基于HelixToolkit.SharpDX 渲染3D模型 - 笺上知微 从零开始的双臂具身VLA起源及现阶段发展综述 - SkyXZ 记对 xonsh shell 的使用, 脚本编写, 迁移及调优 - pluvium27 受够了Vibe Coding的失控?换个起点,让AI事半功倍 从开始配置漏洞环境到漏洞复现流程 - 難しい 关于10年工作经验的程序员对OpenClaw的实战经验分享以及看法 - 虚无境 Any metadata 的内存布局 C# .NET 周刊|2026年3月2期 - InCerry 我帮你测过了,测试圈排名第二的 Skill 依然很牛逼 Skill Discovery | 无监督技能发现的经典工作总结 - MoonOut PbootCMS 网站内容数量多导致访问慢?这些实用优化方案帮你提速! - 家兴网络技术工作室 上下文工程是什么?过时了么?一文讲明白! - 一枫说码 网站漏洞怎么发现并修复?一篇实用指南(附完整流程) - 家兴网络技术工作室 开了 TUN 模式还是直连?90% 的人都踩过这个坑 Github日报|2026年04月12日 - AI一族 AScript扩展多种脚本语言 - rockey627 AI 学习笔记:Agent 的记忆机制 你能被装进一个文件里吗?——7 万人把同事"蒸馏"成了 AI - 我没有三颗心脏 Claude Code 通关手册(七):给 AI 装上技能包——Skills 完全指南 - 暮色之狐 在浏览器中快速编辑代码:VSCode Web 集成实践 - Newbe36524 蒸馏自己 skill?基于 Deepseek 的蒸馏器,丐版蒸馏方式,简单便捷 - To_Carpe_Diem Spring AI Aliababa和AgentScope,哪个更好? - 苏三说技术 Etsy 把 1000 个 MySQL 分片迁进 Vitess:425TB 数据背后的真正问题不是性能,而是运维规模 MicroPython LVGL基础知识和概念:底层渲染与性能优化 - FreakStudio 数据库草图算法 Python 潮流周刊#146:CPython 引入 Rust 的进展 - 豌豆花下猫 最小生成树 - mofei1116 红日靶场七:从外网入口、容器逃逸到 AD 接管的完整利用链复盘 - YouDiscovered1t 分享四款开源且实用的 Kafka 管理工具 - 追逐时光者 vLLM 权重加载机制全解析:从挑战到理想架构 LCT 学习笔记 - ACehomoxue Avalonia UI 12.0.0 正式发布:架构演进和性能飞跃 - 张善友 当 AI Agent 把调用链拉长,延迟开始成为一门生意 conhost.exe 无法显示 U+2717 - 145a 太秀了,我把自己蒸馏成了 Skill!已开源 - 程序员鱼皮 ASP.NET Core 内存缓存实战:一篇搞懂该怎么配、怎么避坑 基于 Ghostty 带有分割标签页和为 Claude 编程设计的通知终端 - BugShare AI 焊死入口:教育的“操作系统级”重塑 - 郝hai 初级Java开发工程师使用sql脚本编写代码的过程是简单而且不糊涂 - CoderOilStation Claude Code通关手册(六):MCP协议完全指南 - 暮色之狐 边框灯光环绕动画特效实现指南 - Newbe36524 开源:子木蒸馏版的 SEO 审计工具 seo-audit-skill v1.0 我所理解的Python元模型 【从0到1构建一个ClaudeAgent】规划与协调-TodoWrite - 程序员Seven Claude 和 Codex 在审计 Skill 上性能差异探究 - ACai_sec AScript如何实现中文脚本引擎 - rockey627 【渗透测试】HTB Season10 Garfield 全过程wp - dynasty_chenzi Android 开发者为什么必须掌握 AI 能力?端侧视角下的技术变革 树状数组正确性证明 - AC-wyr 你的 AI 焦虑,可能比 AI 本身更危险——ATM 机没有消灭银行柜员,但恐慌消灭了你的判断力 - 我没有三颗心脏 一个拉胯的分库分表方案有多绝望?整个部门都在救火! - 冰河团队 动态规划入门必学之走方格问题 - Ofnoname PostgREST 与 PostgreSQL 角色权限配置全解析(生产级实践) - SheepDog1998 使用 UEFI 图形输出协议 GOP 在屏幕上显示图像的方法 - 阿源- Claude Code通关手册(五):组建你的AI专家团队,子代理系统 - 暮色之狐 一个程序员到架构师的催婚路之感悟(整整10年后的催婚相亲感悟) - MisterLip 用 Agent Skill 自动生成工作周报 - 赵康
SkillNexus:开源 Skills 全生命周期创造平台
SkySeraph · 2026-05-03 · via 博客园_首页

作者:skyseraph
日期:2026-05-02
原文:SkillNexus Intro
开源:SkillNexus

Skills 全生命周期创造平台,让你的 Skill 可生成、可量化、可管理、可成长。


你写的 Skill,到底有多好用?

打开 ~/.claude/skills/,数一数里面有多少个文件。

10 个?20 个?还是一堆叫不出名字的 my-prompt-v3-final

更难回答的问题是:你知道哪个 Skill 真的好用吗?

大多数人的答案是:凭感觉。


Skill 是什么

如果你用过 Claude Code、Cursor 或 Windsurf,你一定接触过 Skill——一段 Markdown 文件,包含 YAML frontmatter 和自然语言指令,作为 system prompt 影响 AI 的行为。

---
name: code-review
description: 执行代码审查,关注安全、性能和可读性
tags: [review, security]
---

你是一位资深工程师,负责审查代码。
请按安全性、性能、可读性三个维度分析,
输出问题列表和可直接替换的代码片段。

这类文件可以安装到 Claude Code 的 .claude/commands/、或 Cursor 的 .cursorrules,让 AI 在特定场景下按你的意图工作。

Skill 解决了"能力的载体"问题——模块化、可分发、跨工具。

但它没有解决:这个 Skill 好不好?怎么让它持续变好?


从"写提示词"到"培育能力"的认知跃迁

传统 Skill 创建的问题不在于写法,而在于缺乏闭环

  • 写完即丢,没有版本管理
  • 效果好坏靠主观感受,没有量化数据
  • 模型换代后只能从零调试
  • 多人协作时同一能力被反复重造

Skill 标准只定义了"能力的载体"——如何生成、如何量化、如何持续改进,依然是空白。

SkillNexus 填补了这个空白。


真正的问题

随着 AI 工具普及,开发者积累的 Skill 越来越多,但面临几个共同困境:

写完不知道好不好——靠主观感受,没有量化数据。一个 Skill 在常见任务上表现不错,在边界情况下可能完全失效,但你不知道。

进化靠猜——改了一版,感觉"差不多",但不知道哪个维度变好了、哪个退步了。没有对比数据,优化靠直觉。

模型换代后悄悄失效——Claude 升级,原来调好的 Skill 可能悄悄变差,你甚至察觉不到。

重复造轮子——团队里三个人各自维护功能几乎相同的 code-review Skill,谁也不知道哪个最好。

这不是个人管理能力的问题。是 Skill 开发本身缺少基础设施


SkillNexus:Skill 的全生命周期平台

SkillNexus 是一款桌面应用(Mac / Windows),把 Skill 从生成到进化的完整链路收进一个工具:

Home(管理)→ Studio(生成)→ TestCase(用例)→ Eval(评测)→ Evo(进化)→ Trending(榜单)

每一步都不是孤立功能,而是数据流转的节点:Studio 生成的 Skill 进入 Home 管理,TestCase 为 Skill 建立数据集,Eval 产出评分,Evo 消费评分产出进化版本,Trending 从历史评分中聚合排行——形成完整的能力培育闭环

image


Studio:6 种方式生成 Skill

不知道怎么写 Skill?Studio 给了你 6 条路:

模式 说明
描述生成 用自然语言说清楚需求,AI 生成完整 Skill
示例归纳 提供几组 Input/Output 样本,AI 从中归纳行为规则
对话提炼 把历史对话粘贴进来,把"调法"固化成 Skill
文档提炼 上传 PDF、Markdown 或 TXT,从技术规范、SOP 中提炼
手动编辑 直接写或粘贴已有内容
Agent 设计 构建工具调用型 Agent Skill

每种模式生成后都有实时 5D 质量预评分,安装前就知道这个 Skill 大概在什么水平。

image


Eval:8 个维度,量化"好不好"

感觉好用和真的好用,差的是数据。

这是 SkillNexus 最核心的技术创新,也是让"感觉还行"变成"数据说话"的关键。

评测维度分为两组:

G 系列(任务质量):衡量 Skill 产出的结果好不好

维度 含义
G1 · Correctness 输出是否正确完成任务目标
G2 · Instruction Following 是否严格遵循格式和约束
G3 · Safety 输出是否安全、中立、无害
G4 · Completeness 是否涵盖所有必要内容
G5 · Robustness 对边界/模糊输入的鲁棒性

S 系列(Skill 质量):衡量 Skill 本身写得好不好

维度 含义
S1 · Executability 指令是否清晰可操作
S2 · Cost Awareness 输出是否简洁,避免 token 浪费
S3 · Maintainability 结构是否清晰易维护

8 个维度里:

  • G 系列能告诉你"Skill 有没有做对事"
  • S 系列能告诉你"Skill 有没有把事做好"
  • 两者的分离设计是核心洞察:一个 Skill 可能任务成功率高但 token 耗费惊人,也可能指令模糊但碰巧跑对了

评测支持三种模式:

模式 说明
单次评测 对当前版本出分
对比模式 A vs B 版本并排可视化差异,确认进化是否有效
三条件基线 无 Skill 组 vs 当前版本 vs AI 生成版,量化"装上这个 Skill 到底增益了多少"

每次评测都留下历史记录,雷达图、趋势折线、热力图全部可视化。

image
image
image


Evo:让 Skill 自动变好

评测出了分,发现 Skill 有问题之后呢?

SkillNexus 内置 8 种进化策略,覆盖从交互式微调到全自动迭代的全场景。

Studio 流式进化(实时可见)

策略 核心思路
evidence 外科手术式修复——把评测低分条目作为证据,精准定位问题并修复
strategy 策略矩阵——用户指定优化目标(如"提升 G1+S2"),AI 给出针对性改进方案
capability 能力感知编译——分析 Skill 对 AI 执行能力的要求,降低门槛

自动化 SDK 引擎(后台批量)

引擎 核心思路
EvoSkill 最差样本驱动:找出低分用例针对性改进,多轮迭代收敛
CoEvoSkill 生成器-验证器循环:生成改进方案 + 对抗性测试验证,相互博弈
SkillX 成功模式提取:从高分历史中归纳规律,编码进 Skill 正文
SkillClaw 集体失败分析:跨会话聚类失败模式,找结构性缺陷
SkillMOO 多目标 Pareto 优化:在质量与 token 效率之间找最优解集

image
image


Trending:你的 Skill 资产地图

基于所有历史评测数据,Trending 按 8 个维度实时排名——哪个 Skill 真正在用、真正好用,数据说话。

image
image


为什么是桌面应用

你的 Skill 文件和 API Key 都是本地资产,不应该经过任何第三方服务器。

  • Skill 文件存在 ~/.claude/skills/,与 Claude Code 直接共享,零迁移成本
  • API Key 只在主进程内存中存在,渲染进程拿不到
  • 支持本地 Ollama,完全离线可用
  • 评测任务(Shell 命令执行)需要访问本地环境

技术栈

选择 理由
桌面框架 Electron 31 + electron-vite 2.3 跨平台、原生文件访问、IPC 安全隔离
前端 React 18 + TypeScript 5.5 流式渲染(Streaming UI)、类型安全
业务存储 better-sqlite3 11 零网络延迟、事务完整性、进化历史持久化
配置存储 electron-store 8(加密) API Key 安全、跨重启持久
AI SDK @anthropic-ai/sdk 0.39 支持流式输出;via baseURL 兼容 13+ Provider
测试 Vitest 2(693 tests,38 suites) 纯逻辑层快速测试,无 Electron 依赖

开源,现在可用

SkillNexus 以 Apache 2.0 协议开源,支持 macOS 和 Windows。

git clone https://github.com/skyseraph/SkillNexus.git
cd SkillNexus
npm install && npm run rebuild
npm run dev

如果你在用 Claude Code、Cursor 或任何支持 Skill 标准的 AI 工具,SkillNexus 可以直接扫描导入你现有的 Skill 目录,5 分钟内完成第一次评测。

感兴趣参与内测,或者有想法想交流,欢迎留言或私信。


系列文章

# 文章
01 你的 Skill 目录,正在变成屎山
02 5 分钟完成第一次 Skill 评测
03 从一行描述到可用 Skill——Studio 的 5 种创作模式
04 8 维度评测框架:让"感觉还行"变成数据
05 进化引擎:让 Skill 自动变好
06 Trending 榜单:你的 Skill 资产地图
07 技术架构:Electron 双进程 + 零依赖进化 SDK
08 现状与路线图:SkillNexus 的下一步
09 评测报告不只是看完就算——离线报告系统
10 可视化设计:为什么 Skill 评测需要 6 种图表

让 Skill 从「凭感觉」变成「有数据」,从「堆文件」变成「有生命」。

SkillNexus — 让能力可生成、可量化、可管理、可成长

image