惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

I
Intezer
V
Visual Studio Blog
Microsoft Azure Blog
Microsoft Azure Blog
G
Google Developers Blog
Apple Machine Learning Research
Apple Machine Learning Research
Martin Fowler
Martin Fowler
罗磊的独立博客
aimingoo的专栏
aimingoo的专栏
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
A
About on SuperTechFans
The Cloudflare Blog
云风的 BLOG
云风的 BLOG
B
Blog RSS Feed
L
LangChain Blog
博客园 - 三生石上(FineUI控件)
博客园 - 司徒正美
月光博客
月光博客
宝玉的分享
宝玉的分享
V
V2EX
T
The Blog of Author Tim Ferriss
U
Unit 42
I
InfoQ
D
Docker
H
Help Net Security
博客园_首页
IT之家
IT之家
WordPress大学
WordPress大学
F
Full Disclosure
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
S
SegmentFault 最新的问题
P
Privacy International News Feed
阮一峰的网络日志
阮一峰的网络日志
S
Schneier on Security
Security Latest
Security Latest
S
Securelist
F
Fortinet All Blogs
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
T
Tor Project blog
T
Troy Hunt's Blog
Forbes - Security
Forbes - Security
L
Lohrmann on Cybersecurity
N
News and Events Feed by Topic
博客园 - 聂微东
雷峰网
雷峰网
K
Kaspersky official blog
The GitHub Blog
The GitHub Blog
Help Net Security
Help Net Security
V
Vulnerabilities – Threatpost
V2EX - 技术
V2EX - 技术

博客园 - iTech

7万星的AI交易框架:让大模型模拟投行多空辩论,自动做交易决策 71000颗星的AI交易团队:让大模型模拟投行分工,自动做交易决策 13400颗星的开源项目:输入一句话,AI全自动帮你做短视频 102颗星的沙盒:当AI学会自己写代码、跑测试、做部署 AI 技术日报 - 2026-05-08 29k 星的 PageIndex:不用向量数据库,靠推理就能做 RAG 每天花两小时刷信息?这个开源项目帮你全自动搞定 读源码像读小说?试了 DeepWiki 和 Zread,我再也不想裸读 GitHub 了 Matt Pocock 开源的这套 .claude 技能,为什么让工程师集体上头? Cursor Team Kit:Cursor 官方团队在用的 17 个 AI 工作流 AI 技术日报 - 2026-05-07 AI 技术日报 - 2026-05-06 AI 技术日报 - 2026-05-05 Anthropic CEO 说 12 个月内程序员要失业,我扒完他的底牌,发现事情没那么简单 把工程师的肌肉记忆装进 Claude Code,这个 4300 Star 的项目我后悔没早用 AI 技术日报 - 2026-05-04 AI 技术日报 - 2026-05-03 AI 技术日报 - 2026-05-02 六大 Agent 框架横评:谁支持 Skills?谁能自动创建 Agent?MCP 呢? Wechatsync:一个 Chrome 插件,一键把文章同步到 31 个平台 LangChain 开源了 Open SWE:Stripe、Ramp、Coinbase 内部都在造的编程 Agent Cockpit:把 Claude Code 从终端里搬出来,装进浏览器 Cursor 把自家的 AI Agent 开放了:写几行 TypeScript 就能调 Cursor 干活 AI 技术日报 - 2026-05-01 AI 写代码每次结果都不一样?Archon 用 YAML 工作流把 AI 编程变成流水线 AI 写代码比你快了,但你还是得学编程——只不过学法得换 腾讯的龙虾特工队:4 个 AI Agent 同日更新,全家桶正式成型 Agno 不做更聪明的 Agent,它要把所有 Agent 框架包进同一个操作系统 Hermes Agent 终于有了像样的 Web 界面,而且还支持远程访问 Datawhale 出了一套 29 学科知识地图,把 AI 的底牌全掀了 Hermes Agent 在聊天框里就能用的 20 种高级功能 一份 AGENTS.md 能顶一次模型升级?Augment Code 用数据说了算 NVIDIA 开源了一个「AI 沙箱」,20K Star,让 Agent 跑代码不再裸奔 60ms 冷启动、5MB 内存:腾讯开源的这个沙箱让 Docker 安全隔离像笑话 AI 技术日报 - 2026-04-30 AI 技术日报 - 2026-04-29 AI 技术日报 - 2026-04-28 Goose:Linux 基金会亲儿子,能撼动 Claude Code 和 OpenCode 吗? AI 技术日报 - 2026-04-27 AI 技术日报 - 2026-04-26 Google 把价值20美元/月的东西免费了,102K人已经抢到了 OpenClaw 和 Claude Code 网络搜索配置指南 AI 技术日报 - 2026-04-25 Anthropic 为什么遥遥领先:从 Cat Wu 专访看AI霸主的底层逻辑 Mac 本地跑大模型完全指南:你的苹果电脑就是 AI 工作站 同样 70B 参数,为什么 MoE 只激活 13B 就能打平 Dense? DeepSeek-V4 技术报告里藏着一条线:华为昇腾 NPU 已完成推理验证 DeepSeek-V4 深夜炸场:1M 上下文、384K 输出、双模型,API 定价直接卷到底 MacBook Air 跑大模型实测:Ollama、llama.cpp、LM Studio 谁才是本地推理之王? AI 技术日报 - 2026-04-24 OpenCode:Claude Code 的最佳平替 2026 开源大模型五国杀:Qwen 3.6 vs Gemma 4 vs Llama 4 vs GLM-5.1 vs DeepSeek V4 MCP 与 Skills 的你死我活:Anthropic 的 Agent 生态野心与开发者的站队困境 给 AI Agent 配搜索,国内能用的搜索 API 实测对比 AI 技术日报 - 2026-04-23 CC Switch:49K Star 的 Claude Code 登录绕过神器,还能管 Codex 和 Gemini CLI NVIDIA 开出 32 万美元年薪招 AI Agent 工程师,JD 里藏着这些信号 fast-mirror-skill 技术拆解:一个小而完整的 Claude Skill 是怎么设计的 Cursor 值 600 亿美元?马斯克这次赌的不是技术,是入口 AI 技术日报 - 2026-04-22 别再问 AI 能不能赚钱了:3 个上班族亲测有效的副业方法(2026 最新版) 10 分钟从零搞定 Hermes Agent:飞书微信双通道丝滑上线 AI 技术日报 - 2026-04-21 Anthropic 实战总结:AI Agent 的 3 种工作流模式,选错代价很大 安装 openclaw,hermes 慢的想发疯,fast-mirror-skill 来救了 Claude Routines:你下班睡觉了,Agent 还在为你干活 微信飞书里敲一个斜杠就能干活:Hermes Quick Command 到底多省事 AI 正在疯狂吃电:算力尽头是电力,谁能解这道题? AI 技术日报 - 2026-04-20 3K 行代码造一个越用越聪明的 AI Agent:GenericAgent 登顶 GitHub Trending 高德途途封神机器人半马,背后的 ABot-Claw 到底是什么 人们希望 AI 能干啥?Anthropic 调查:第一名不是赚钱,是变强 AI 时代人们在担心什么?Anthropic 的 13 条焦虑排行榜 OpenAI 官方 Agent SDK 来了:22k Star,支持 100+ 模型,Python 10 行代码上手 AI 技术日报 - 2026-04-19 OpenAgents Workspace:让 Claude Code 和 Codex 在同一个群里干活 Claude 是要干掉整个软件行业吗? Claude 官方推荐多 Agents 设计模式 多 Agent 系统的 5 种协调模式:选错了模式,再强的 Agent 也白搭 AI 技术日报 - 2026-04-18 AI 技术日报 - 2026-04-17 Better-Harness:让AI Agent自己优化自己的革命性框架 OpenClaw Workspace 完全指南:我的AI编程工作流 DeepSeek内蒙草原高薪招聘:AI时代的数字牧民梦,还是营销噱头? 2 核 2G 的阿里云 ECS 能跑 OpenClaw 吗?能,但有点折腾 AI 技术日报 - 2026-04-16 OpenCLI:一个命令行搞定 16+ 内容平台的神器 从零到精通:OpenClaw CLI 命令完全指南 AI 技术日报 - 2026-04-15 AI Agent 如何自我进化?Hermes Agent Self-Evolution 深度解析 AI 技术日报 - 2026-04-14 为什么你的飞书 Bot 总是连不上?OpenClaw Gateway 架构深度解析 OpenClaw 连接飞书的原理:Gateway、Channel 与消息流转 国内安装 Hermes Agent 踩坑全记录:从 GitHub 超时到正常跑起来的每一步 35 万 Star 的 OpenClaw:5 分钟部署你的私人 AI 助手,直连飞书 AI 技术日报 - 2026-04-13 公司用 AI 筛简历,这个开源项目让候选人用 AI 反选公司 为什么 Google ADK 可能是你下一个 Agent 框架——7 个改变游戏规则的特性 Microsoft Agent Framework 深度解析:架构设计与实战落地 AI 技术日报 - 2026-04-11
llm-wiki:给 AI Agent 装上可审计的研究大脑(710 stars)
iTech · 2026-06-21 · via 博客园 - iTech

llm-wiki:给 AI Agent 装上一个可审计的研究大脑,710 stars 的 Claude Code 插件怎么玩

先收藏,回头给 Claude Code 装上试试。

你有没有这种感觉:用 Claude Code 或 Codex 做技术调研,问一次它搜一次,下次再问同样的东西又从零开始。聊了三天上下文一炸,Agent 就失忆了,之前挖出来的资料、踩过的坑全没了。

我最近发现一个项目把这个问题解决得很彻底——nvk/llm-wiki,一个让任意 AI agent 编译知识库的开源工具。710 stars,MIT 协议,Python 写的,核心思路一句话:让 Agent 自己把研究过程沉淀成可追溯的 wiki,下次直接查,不用重新搜。

灵感来自 Andrej Karpathy 提过的 LLM wiki 概念,但实现得很工程化——它不是给你看的笔记本,是给 Agent 自己用的「第二大脑」。

本文提纲

  1. llm-wiki 到底解决了什么问题
  2. 核心机制:并行多 agent + 可追溯 wiki
  3. 五种运行时:Claude Code 是一等公民
  4. 核心命令速览
  5. 一个完整研究流程长什么样
  6. 它和 RAG 的本质区别
  7. 谁适合用,谁先别急

llm-wiki 到底解决了什么问题

先说它不是什么,避免误解:

  • 不是代码生成加速器,不碰 HumanEval/MBPP 那套
  • 不是给你做读书笔记的 Obsidian 插件(虽然输出格式兼容 Obsidian)
  • 不是 RAG 框架(这点后面细说,区别很关键)

它真正解决的问题是:Agent 的研究是「一次性的」

举个真实场景。你要研究「硬件钱包的威胁模型」,让 Claude Code 去查。它会搜网页、读文章、给你一个综述。但这个综述聊完就消失了。下周你想接着研究「ColdCard 这款钱包的具体攻击面」,Agent 不记得上周查过什么,又得从头搜。

llm-wiki 干的事是:把第一次研究的结果编译成一个结构化的 wiki 目录(Markdown 文件 + 源码引用 + 索引),存在本地。下次 Agent 再被问到相关问题,先查 wiki,命中就直接用,没命中才去搜。而且每条结论都能追溯到原始来源。

MERMAID_BLOCK_0

上图是它的工作循环:问题先查 wiki,命中直接返回;没命中才启动并行研究,研究完自动编译进 wiki。第二次问同样的问题,走的是绿色那条快路径。

核心机制:并行多 agent + 可追溯 wiki

这是 llm-wiki 最有意思的两个设计。

并行多 agent 研究。一条 /wiki:research 命令下去,它不是派一个 agent 串行地搜,而是同时派 5 到 10 个 agent 并行检索不同子主题。普通模式 --deep 开 8 个,极限模式 --retardmax 开 10 个 agent 同时跑,还会「滚雪球」——每一轮发现的新子主题自动派 agent 深挖。

一条命令能跑多久?参数 --min-time 1h 表示至少研究一小时。你可以下班前发一条命令,第二天早上回来收一个编译好的完整 wiki。这背后是 Claude Code 的 200K 上下文窗口在撑着,单个 agent 才装得下一轮研究的全部素材。

可追溯 wiki 编译。研究完了不是直接丢给你一段总结,而是编译成一个目录结构:

topics/
  hardware-wallet-threat-models/
    raw/              # 原始来源(URL、PDF、截图)
    notes/            # agent 的工作笔记
    articles/         # 编译出的结构化文章
    inventory/        # 资产清单
    datasets/         # 数据集(如果有)
    .sessions/        # 会话快照 + 用户反馈

关键在于 raw/articles/ 的对应关系——每段编译出来的结论都能追到原始来源文件。这就引出它和 RAG 的核心区别。

它和 RAG 的本质区别

很多人第一反应:「这不就是 RAG 吗?向量检索 + 生成。」

不是。区别在于谁在整理知识,以及知识的形态

维度 传统 RAG llm-wiki
知识形态 向量嵌入,散在向量库里 Markdown 文件,人类可读
整理者 离线 embedding 流程 Agent 实时编译
可追溯性 难(向量不可读) 强(每条结论指向 raw 源文件)
可审计 几乎不行 /wiki:audit 专门做信任审计
人工干预 要改向量重 embed 直接改 Markdown

RAG 的知识是给机器看的向量,你看不懂也改不了。llm-wiki 的知识是给人看的 Markdown,Agent 编译完你直接打开编辑器改,下次 Agent 读到的就是改过的版本。

这个设计带来的最大好处是可审计。研究敏感话题(比如安全威胁模型、医疗方案)时,/wiki:audit --project coldcard-threat-model 会检查每条结论的来源可信度、有没有遗漏反面证据、引用链是否完整。RAG 做不到这个——你没法审计一个向量。

五种运行时:Claude Code 是一等公民

llm-wiki 最聪明的设计是一套行为层,五个运行时壳。Claude Code 是主要适配对象(22K token 系统提示,200K 上下文),但同样的 wiki 协议可以跑在别的 agent 上:

运行时 安装方式 系统提示大小 适合场景
Claude Code claude plugin install wiki@llm-wiki ~22K tokens 完整 agent 研究
OpenAI Codex codex plugin marketplace add nvk/llm-wiki ~3K tokens OpenAI 生态
OpenCode opencode.json 配置 instructions URL ~3K tokens 多 provider
Pi --instructions SKILL.md ~1K tokens 本地模型
任意 agent 复制 AGENTS.md 看情况 通用兜底

底层逻辑是:Claude Code 的 skills/wiki-manager/SKILL.md 是「行为真理源」,Codex 和 OpenCode 的版本是脚本自动同步生成的(sync-codex-plugin.shsync-opencode-plugin.sh),不是手维护的两套代码。有测试脚本盯着同步一致性,一旦 drift 就报错。

这意味着你换 agent 不用换知识库。wiki 目录是中立的,跟着你走,agent 只是访问它的前端。

Claude Code 一行装好:

claude plugin install wiki@llm-wiki

核心命令速览

llm-wiki 的命令设计很克制,核心就这几个:

# 研究:从零创建一个 topic wiki,并行 agent 跑 1 小时
/wiki:research "gut microbiome" --new-topic --min-time 1h

# 深度模式:8 个 agent,跑 2 小时
/wiki:research "fasting" --deep --min-time 2h

# 论文式研究:给一个论点,搜集正反两面证据,最后给判决
/wiki:thesis "fiber reduces neuroinflammation via SCFAs"

# 收集:建带溯源的目录(表情包、工具、实体都行)
/wiki:collect "bitcoin memes" --wiki memes-bitcoin

# 查询:问 wiki,命中直接返回
/wiki:query "How does fiber affect mood?"
/wiki:query "compare keto and mediterranean" --deep

# 摄入:手动加一个来源
/wiki:ingest https://example.com/article

# 审计:检查一个 project 的引用链和可信度
/wiki:audit --project coldcard-threat-model

除了带冒号的「显式命令」,还有模糊路由器。直接 /wiki what do we know about CRISPR? 它能识别成 query,/wiki add https://... 识别成 ingest。这是为了贴合人自然说话的习惯。

查询还分深度。--deep 会做交叉引用,把多个 topic 里的相关结论拼起来对比着答,而不是只查单个 topic。

一个完整研究流程长什么样

把上面串起来,一个真实的研究闭环是这样跑的:

MERMAID_BLOCK_1

第一周发 research 命令,8 个 agent 并行挖一小时,编译成 wiki 存本地。第二周直接 query,命中本地 wiki 秒回,还带着原始来源链接。

这里有个细节值得说:会话快照和反馈捕获(v0.11、v0.12 新增的)。Agent 会自动把每次会话的关键内容脱敏存到 .sessions/,你中途纠正它的偏好、否定的方案也会被捕获成 feedback 候选。下次开新会话,Agent 先 rehydrate 这些快照,等于记住了你的研究历史。不过这些快照不会自动进入正式 wiki,要你显式 @wiki feedback promote 才转正,避免噪声污染知识库。

谁适合用,谁先别急

适合的人

  • 用 Claude Code 做技术/学术深度调研的,研究周期长、需要沉淀
  • 做安全研究、威胁建模的,需要每条结论可追溯可审计
  • 企业知识库维护者,想把散落的文档系统化
  • 跨多个 agent 工具切换的人,需要中立的、可移植的知识层

先别急的人

  • 只做一次性问答的,RAG 或直接搜更轻
  • 完全不用 Claude Code / Codex 这类 agent 的,AGENTS.md 兜底能用但体验打折
  • 对磁盘空间敏感的——raw/ 会存原始来源,深研究会占不少空间

llm-wiki 最适合的场景是长周期、多轮、需要可信度的研究。一次性任务它反而重了。

几个实操注意点

装之前先知道这些坑:

iCloud 用户注意权限。很多人把 wiki 目录放 iCloud 跨设备同步。macOS 的隐私控制会卡住——stat 能成功但读 wikis.jsonOperation not permitted。解决办法不是换本地路径,而是给启动 agent 的那个 app 开 Full Disk Access,然后用 /wiki config hub-path 显式指定 iCloud 路径,别依赖默认的 ~/wiki

sandbox 环境(nono)要开额外权限。wiki 目录在项目外,sandbox 默认读不到。Claude Code / OpenCode 要加 $HOME/.config/llm-wiki 读权限 + wiki 目录读写权限;Codex 还要额外加 $HOME/.codex 读写(插件缓存要写)。

更新别用 SSH。sandbox 里的 agent 升级插件用 gh auth login --web --git-protocol https,避免 SSH host-key 提示卡住。

版本同步。如果 claude plugin update 没拉到新版(marketplace 缓存陈旧),README 给了手动同步脚本,从仓库 clone 后 cp 到插件缓存目录,重启 Claude Code 生效。

参考文档与链接

你的 Agent 现在每次都从零开始研究?装上 llm-wiki 试试,回来评论区说说效果。觉得有用点个赞让更多人看到。


作者: itech001
来源: 公众号:AI人工智能时代
网站: https://www.theaiera.cn/
每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代,转载请注明出处。