llm-wiki：给 AI Agent 装上可审计的研究大脑（710 stars）

博客园 - iTech

iTech · 2026-06-21 · via 博客园 - iTech

llm-wiki：给 AI Agent 装上一个可审计的研究大脑，710 stars 的 Claude Code 插件怎么玩

先收藏，回头给 Claude Code 装上试试。

你有没有这种感觉：用 Claude Code 或 Codex 做技术调研，问一次它搜一次，下次再问同样的东西又从零开始。聊了三天上下文一炸，Agent 就失忆了，之前挖出来的资料、踩过的坑全没了。

我最近发现一个项目把这个问题解决得很彻底——nvk/llm-wiki，一个让任意 AI agent 编译知识库的开源工具。710 stars，MIT 协议，Python 写的，核心思路一句话：让 Agent 自己把研究过程沉淀成可追溯的 wiki，下次直接查，不用重新搜。

灵感来自 Andrej Karpathy 提过的 LLM wiki 概念，但实现得很工程化——它不是给你看的笔记本，是给 Agent 自己用的「第二大脑」。

本文提纲

llm-wiki 到底解决了什么问题
核心机制：并行多 agent + 可追溯 wiki
五种运行时：Claude Code 是一等公民
核心命令速览
一个完整研究流程长什么样
它和 RAG 的本质区别
谁适合用，谁先别急

llm-wiki 到底解决了什么问题

先说它不是什么，避免误解：

不是代码生成加速器，不碰 HumanEval/MBPP 那套
不是给你做读书笔记的 Obsidian 插件（虽然输出格式兼容 Obsidian）
不是 RAG 框架（这点后面细说，区别很关键）

它真正解决的问题是：Agent 的研究是「一次性的」。

举个真实场景。你要研究「硬件钱包的威胁模型」，让 Claude Code 去查。它会搜网页、读文章、给你一个综述。但这个综述聊完就消失了。下周你想接着研究「ColdCard 这款钱包的具体攻击面」，Agent 不记得上周查过什么，又得从头搜。

llm-wiki 干的事是：把第一次研究的结果编译成一个结构化的 wiki 目录（Markdown 文件 + 源码引用 + 索引），存在本地。下次 Agent 再被问到相关问题，先查 wiki，命中就直接用，没命中才去搜。而且每条结论都能追溯到原始来源。

MERMAID_BLOCK_0

上图是它的工作循环：问题先查 wiki，命中直接返回；没命中才启动并行研究，研究完自动编译进 wiki。第二次问同样的问题，走的是绿色那条快路径。

核心机制：并行多 agent + 可追溯 wiki

这是 llm-wiki 最有意思的两个设计。

并行多 agent 研究。一条 /wiki:research 命令下去，它不是派一个 agent 串行地搜，而是同时派 5 到 10 个 agent 并行检索不同子主题。普通模式 --deep 开 8 个，极限模式 --retardmax 开 10 个 agent 同时跑，还会「滚雪球」——每一轮发现的新子主题自动派 agent 深挖。

一条命令能跑多久？参数 --min-time 1h 表示至少研究一小时。你可以下班前发一条命令，第二天早上回来收一个编译好的完整 wiki。这背后是 Claude Code 的 200K 上下文窗口在撑着，单个 agent 才装得下一轮研究的全部素材。

可追溯 wiki 编译。研究完了不是直接丢给你一段总结，而是编译成一个目录结构：

topics/
  hardware-wallet-threat-models/
    raw/              # 原始来源（URL、PDF、截图）
    notes/            # agent 的工作笔记
    articles/         # 编译出的结构化文章
    inventory/        # 资产清单
    datasets/         # 数据集（如果有）
    .sessions/        # 会话快照 + 用户反馈

关键在于 raw/ 和 articles/ 的对应关系——每段编译出来的结论都能追到原始来源文件。这就引出它和 RAG 的核心区别。

它和 RAG 的本质区别

很多人第一反应：「这不就是 RAG 吗？向量检索 + 生成。」

不是。区别在于谁在整理知识，以及知识的形态。

维度	传统 RAG	llm-wiki
知识形态	向量嵌入，散在向量库里	Markdown 文件，人类可读
整理者	离线 embedding 流程	Agent 实时编译
可追溯性	难（向量不可读）	强（每条结论指向 raw 源文件）
可审计	几乎不行	`/wiki:audit` 专门做信任审计
人工干预	要改向量重 embed	直接改 Markdown

RAG 的知识是给机器看的向量，你看不懂也改不了。llm-wiki 的知识是给人看的 Markdown，Agent 编译完你直接打开编辑器改，下次 Agent 读到的就是改过的版本。

这个设计带来的最大好处是可审计。研究敏感话题（比如安全威胁模型、医疗方案）时，/wiki:audit --project coldcard-threat-model 会检查每条结论的来源可信度、有没有遗漏反面证据、引用链是否完整。RAG 做不到这个——你没法审计一个向量。

五种运行时：Claude Code 是一等公民

llm-wiki 最聪明的设计是一套行为层，五个运行时壳。Claude Code 是主要适配对象（22K token 系统提示，200K 上下文），但同样的 wiki 协议可以跑在别的 agent 上：

运行时	安装方式	系统提示大小	适合场景
Claude Code	`claude plugin install wiki@llm-wiki`	~22K tokens	完整 agent 研究
OpenAI Codex	`codex plugin marketplace add nvk/llm-wiki`	~3K tokens	OpenAI 生态
OpenCode	opencode.json 配置 instructions URL	~3K tokens	多 provider
Pi	`--instructions SKILL.md`	~1K tokens	本地模型
任意 agent	复制 AGENTS.md	看情况	通用兜底

底层逻辑是：Claude Code 的 skills/wiki-manager/SKILL.md 是「行为真理源」，Codex 和 OpenCode 的版本是脚本自动同步生成的（sync-codex-plugin.sh、sync-opencode-plugin.sh），不是手维护的两套代码。有测试脚本盯着同步一致性，一旦 drift 就报错。

这意味着你换 agent 不用换知识库。wiki 目录是中立的，跟着你走，agent 只是访问它的前端。

Claude Code 一行装好：

claude plugin install wiki@llm-wiki

核心命令速览

llm-wiki 的命令设计很克制，核心就这几个：

# 研究：从零创建一个 topic wiki，并行 agent 跑 1 小时
/wiki:research "gut microbiome" --new-topic --min-time 1h

# 深度模式：8 个 agent，跑 2 小时
/wiki:research "fasting" --deep --min-time 2h

# 论文式研究：给一个论点，搜集正反两面证据，最后给判决
/wiki:thesis "fiber reduces neuroinflammation via SCFAs"

# 收集：建带溯源的目录（表情包、工具、实体都行）
/wiki:collect "bitcoin memes" --wiki memes-bitcoin

# 查询：问 wiki，命中直接返回
/wiki:query "How does fiber affect mood?"
/wiki:query "compare keto and mediterranean" --deep

# 摄入：手动加一个来源
/wiki:ingest https://example.com/article

# 审计：检查一个 project 的引用链和可信度
/wiki:audit --project coldcard-threat-model

除了带冒号的「显式命令」，还有模糊路由器。直接 /wiki what do we know about CRISPR? 它能识别成 query，/wiki add https://... 识别成 ingest。这是为了贴合人自然说话的习惯。

查询还分深度。--deep 会做交叉引用，把多个 topic 里的相关结论拼起来对比着答，而不是只查单个 topic。

一个完整研究流程长什么样

把上面串起来，一个真实的研究闭环是这样跑的：

MERMAID_BLOCK_1

第一周发 research 命令，8 个 agent 并行挖一小时，编译成 wiki 存本地。第二周直接 query，命中本地 wiki 秒回，还带着原始来源链接。

这里有个细节值得说：会话快照和反馈捕获（v0.11、v0.12 新增的）。Agent 会自动把每次会话的关键内容脱敏存到 .sessions/，你中途纠正它的偏好、否定的方案也会被捕获成 feedback 候选。下次开新会话，Agent 先 rehydrate 这些快照，等于记住了你的研究历史。不过这些快照不会自动进入正式 wiki，要你显式 @wiki feedback promote 才转正，避免噪声污染知识库。

谁适合用，谁先别急

适合的人：

用 Claude Code 做技术/学术深度调研的，研究周期长、需要沉淀
做安全研究、威胁建模的，需要每条结论可追溯可审计
企业知识库维护者，想把散落的文档系统化
跨多个 agent 工具切换的人，需要中立的、可移植的知识层

先别急的人：

只做一次性问答的，RAG 或直接搜更轻
完全不用 Claude Code / Codex 这类 agent 的，AGENTS.md 兜底能用但体验打折
对磁盘空间敏感的——raw/ 会存原始来源，深研究会占不少空间

llm-wiki 最适合的场景是长周期、多轮、需要可信度的研究。一次性任务它反而重了。

几个实操注意点

装之前先知道这些坑：

iCloud 用户注意权限。很多人把 wiki 目录放 iCloud 跨设备同步。macOS 的隐私控制会卡住——stat 能成功但读 wikis.json 报 Operation not permitted。解决办法不是换本地路径，而是给启动 agent 的那个 app 开 Full Disk Access，然后用 /wiki config hub-path 显式指定 iCloud 路径，别依赖默认的 ~/wiki。

sandbox 环境（nono）要开额外权限。wiki 目录在项目外，sandbox 默认读不到。Claude Code / OpenCode 要加 $HOME/.config/llm-wiki 读权限 + wiki 目录读写权限；Codex 还要额外加 $HOME/.codex 读写（插件缓存要写）。

更新别用 SSH。sandbox 里的 agent 升级插件用 gh auth login --web --git-protocol https，避免 SSH host-key 提示卡住。

版本同步。如果 claude plugin update 没拉到新版（marketplace 缓存陈旧），README 给了手动同步脚本，从仓库 clone 后 cp 到插件缓存目录，重启 Claude Code 生效。

参考文档与链接

llm-wiki 项目官网 — 项目展示页与介绍
GitHub: nvk/llm-wiki — 710 stars，MIT 协议，Python，核心仓库
Claude Code 插件安装 — claude plugin install wiki@llm-wiki 一行安装
How It Works 文档 — 并行多 agent 研究 + wiki 编译机制详解
Research Modes — deep / retardmax / thesis 三种研究模式
Nono Sandbox Permissions — sandbox 环境下的权限配置
AGENTS.md 通用协议 — 给任意 agent 用的单文件兜底方案

你的 Agent 现在每次都从零开始研究？装上 llm-wiki 试试，回来评论区说说效果。觉得有用点个赞让更多人看到。

作者: itech001
来源: 公众号：AI人工智能时代
网站: https://www.theaiera.cn/
每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代，转载请注明出处。

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

博客园 - iTech

llm-wiki：给 AI Agent 装上一个可审计的研究大脑，710 stars 的 Claude Code 插件怎么玩

本文提纲

llm-wiki 到底解决了什么问题

核心机制：并行多 agent + 可追溯 wiki

它和 RAG 的本质区别

五种运行时：Claude Code 是一等公民

核心命令速览

一个完整研究流程长什么样

谁适合用，谁先别急

几个实操注意点

参考文档与链接