惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

博客园 - 司徒正美
D
Darknet – Hacking Tools, Hacker News & Cyber Security
M
MIT News - Artificial intelligence
腾讯CDC
IT之家
IT之家
Microsoft Azure Blog
Microsoft Azure Blog
M
Microsoft Research Blog - Microsoft Research
阮一峰的网络日志
阮一峰的网络日志
H
Help Net Security
L
LangChain Blog
G
Google Developers Blog
Stack Overflow Blog
Stack Overflow Blog
人人都是产品经理
人人都是产品经理
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
博客园 - 【当耐特】
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
U
Unit 42
Recent Announcements
Recent Announcements
S
SegmentFault 最新的问题
大猫的无限游戏
大猫的无限游戏
博客园 - Franky
T
The Blog of Author Tim Ferriss
罗磊的独立博客
宝玉的分享
宝玉的分享
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
雷峰网
雷峰网
D
DataBreaches.Net
爱范儿
爱范儿
Schneier on Security
Schneier on Security
P
Palo Alto Networks Blog
Spread Privacy
Spread Privacy
Hugging Face - Blog
Hugging Face - Blog
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
K
Kaspersky official blog
P
Privacy & Cybersecurity Law Blog
博客园_首页
T
Threat Research - Cisco Blogs
I
InfoQ
有赞技术团队
有赞技术团队
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Recorded Future
Recorded Future
量子位
H
Hackread – Cybersecurity News, Data Breaches, AI and More
GbyAI
GbyAI
Cyberwarzone
Cyberwarzone
B
Blog
C
Check Point Blog
P
Proofpoint News Feed
S
Securelist
A
Arctic Wolf

博客园 - iTech

Skill 写好了怎么测?Claude Code 官方 skill-creator 评估全拆解 Claude Code 日常开发实战:HN 热帖引发的 Agent 工具链讨论 Monkdev:给 LLM Agent 立规矩的极简工具包,少即是多 Agent 爆发之后,谁来做流量网关?agentgateway 的答案 AI 技术日报 - 2026-05-28 Agent Harness 到底包括什么?拆解 ETCLOVG 七层分类 Clark-agent:一个 Rust 写的 LLM Agent 循环,凭什么敢说 provider 无关? OpenRouter 最新 Agent 使用排行榜:谁在真正消费 AI 算力? Anthropic 开源 Knowledge Work Plugins:11 个角色插件让 Claude 变成你的专业同事 华为韬定律(Tau Scaling Law):用时间缩微绕开光刻机封锁,2031 年追平 1.4nm Qwen3.7 Max 代码竞技场第四名:中国模型首次杀入全球顶尖梯队 微软 Webwright:一个终端就够了,把 LLM 变成顶级浏览器 Agent AI 技术日报 - 2026-05-27 pi-web:给 Pi 编码 Agent 加一个浏览器界面,比终端更直观 Why Do We Need oh-my-pi?当编码 Agent 终于把 IDE 的能力带了进来 There Are Many Agent Harnesses, But pi.dev Is Yours - iTech 38K Stars 的 daily_stock_analysis:LLM 驱动的零成本股票分析系统,5 分钟部署 DeepSeek-Reasonix:一个为缓存而生的终端编程 Agent,99.8% 缓存命中率的秘密 AI 技术日报 - 2026-05-26 Google 开源分布式 Agent 运行时 AX:让 AI Agent 像微服务一样可靠 不用 Embedding 也能做知识 Agent?Vercel 用文件系统干掉了向量检索管线 AI 技术日报 - 2026-05-25 Hermes Agent 接入 Microsoft Teams 全指南:6 步让你的 AI Agent 进群聊 Understand Anything:把任何代码库变成可交互知识图谱,23k star 的 AI 编程理解神器 腾讯开源 openclaw-weixin:让你的 AI Agent 直连微信,扫码即用 什么是 Agent-Native?如何把你的网站升级成面向 AI Agent 的网站 AI 技术日报 - 2026-05-24 Claude Code 为什么放弃 RAG 用 Grep 搜索代码?大型代码库最佳实践全解析 DeepSeek V4 Pro 永久降价 75%:旗舰推理模型进入白菜价时代 Runtime (YC P26):给每个团队配一个沙盒 AI Agent,产品经理也能提 PR Models.dev:查 AI 模型价格不用再开十几个网页了,4,844 个模型一站式对比 Superset (YC P26):Agent 时代的全新 IDE,同时跑 10 个 Claude Code 互不干扰 AI 技术日报 - 2026-05-23 3.5 个月 4.3 万 Star:nanobot 凭什么成为最火的开源 AI Agent CodeGraph:给 AI 编程助手装上代码知识图谱,省 35% 费用、减少 70% 工具调用 AI Engineering from Scratch:435 节课从线性代数到自主 Agent,每个算法手写一遍 Lucarne:不用盯着电脑也能掌控 AI Agent,微信/Telegram 远程遥控本地编码助手 财富正在向 AI 集中:三个万亿级 IPO 同场竞技,一场前所未有的造富运动 程序员必备核心技能手册:从 Linux 到 Docker 的实战速查 Deep:DeepSeek 版的 Aider / Claude Code,开源 CLI 编程工具新选择 AI 技术日报 - 2026-05-22 PUA vs NoPUA:用恐惧还是用爱驱动 AI Agent?一场 17000 Star 的路线之争 Anthropic 停招 L6 以下:当最强 AI 公司自己都不招初级工程师了 CLI for Microsoft 365 实战:用命令行操控 Teams 收发消息 面试 AI Agent 工程师会被问什么?40+ 真题 + 知识图谱全梳理 7 个标准正在重塑 AI 开发:从 MCP 到 AG-UI,一文看懂 Agent 时代的协议栈 SpaceX IPO:史上最大上市案,1.75万亿到2万亿美元的估值到底买了什么? DeepSeek 悄悄挂出 Agent Harness 岗位:Model + Harness = Agent,要做智能体产品了? AI 技术日报 - 2026-05-21 Claw 和 Hermes 精选 10 个零成本 Skills:让 AI Agent 能力翻倍 Stainless:AI 时代最被低估的幕后公司,你用的每个 SDK 可能都出自他们之手 飞书 CLI vs 企业微信 CLI vs 钉钉 CLI:三大办公平台终端工具横评 12-Factor Agents:从 21k Star 的开源项目看 AI Agent 的正确构建姿势 AI 技术日报 - 2026-05-20 Semble:让 AI Agent 搜代码的 Token 消耗直降 98%,怎么做到的 CloakBrowser:15k Star 的隐形浏览器,49 个 C++ 补丁干翻所有反爬检测 AI 技术日报 - 2026-05-19 面向 Agent 的软件开发:当软件的第一用户不再是人类 8MB 内存跑 AI 编程代理?Zerostack 用纯 Rust 证明:Agent 不需要那么重 AI 技术日报 - 2026-05-18 AI 技术日报 - 2026-05-17 AI 技术日报 - 2026-05-16 Anthropic 发布创始人手册:AI Native 公司不是多招几个工程师,是换一种活法 "不用 AI 就会被淘汰"——这是我听过最懒惰的恐吓 0.79ms 创建一个安全沙箱:zeroboot 用 COW 打穿 AI Agent 隔离的性能天花板 2000+ API 一把梭:agentic-ai-apis 让你少写 80% 的基础设施代码 AI 技术日报 - 2026-05-15 OpenHuman:一个让你在几分钟内拥有 AI 超级智能的开源项目 开源项目怎么选 License?个人免费、企业收费的 6 种方案全对比 browser-use vs browser-harness vs agent-browser:AI Agent 浏览器自动化工具终极选型指南 AI 技术日报 - 2026-05-14 一个 Deep Agent 到底能干什么?从功能视角拆解它的全部能力 Deep Agents SDK 功能全清单:我逐行读了源码,整理出这份完整参考手册 7MB 干翻 200MB?开源终端 Terax AI 能不能替代 Warp,我替你试了 Deep Agents vs Claude Code vs Cursor:2026 年 AI 编程 Agent 终极对比 用 Deep Agents CLI 替代 Claude Code:一条命令装好,任意模型驱动的终端 Agent 15 个 Deep Agents 实战案例:从 Deep Research 到 Text-to-SQL,看看这个框架能做什么 Deep Agents:LangChain 出品的 2026 年最强开源 Agent 框架,3 行代码搞定一切 拆解 Deep Agents 架构:中间件、后端、Profile 三板斧,这设计比我想的还深 AI 时代,我辞掉了大厂工作去做独立开发者——血泪换来的 7 条生存法则 中国 AI 六小虎估值大盘点:谁在泡沫上跳舞,谁在价值里扎根 AI 技术日报 - 2026-05-13 写好 AGENTS.md 相当于白嫖一次模型升级(写错了还不如不写) GitHub 49K Star!Ruflo 让 Claude 多 Agent 协作像带团队一样简单 AI 技术日报 - 2026-05-12 罗福莉访谈深度解析:Agent 时代普通人还能干什么 AWS DevOps Agent:亚马逊的自主运维 Agent 来了 Vercel vs Netlify vs Cloudflare Pages:2026 静态托管三巨头实测对比 AI 时代,为什么中国出不了英伟达、三星、海力士? Vercel 开源 Open Agents:把 Claude Code 搬上云,关机也能干活 黄仁勋 CMU 毕业演讲全文解读:计算范式 60 年来首次被重写,每个人都是程序员 AI 技术日报 - 2026-05-11 nuwa-skill 18K Star:16 个思维 Skill 全拆解 - iTech Hermes Web UI:把 AI Agent 装进浏览器,一个面板管到底 AI Agent 工具多到选不过来?Agent MGMT 帮你一次性看清全局 营收创新高却裁员 20%:Cloudflare 用 AI Agent 告诉我们,替代已经开始了 AI 技术日报 - 2026-05-10 23K Star 的 DeepSeek TUI,真能代替 Claude Code 吗? Gumroad创始人把《极简创业》做成AI技能包:10个斜杠命令,让Claude当你的创业顾问 Open Design:3.4万星的开源AI设计工作室,让你的编程Agent秒变设计师
OpenBMB 开源 PilotDeck:清华系团队要给 Agent 造一个操作系统
iTech · 2026-05-28 · via 博客园 - iTech

OpenBMB 开源 PilotDeck:清华系团队要给 Agent 造一个操作系统

2026 年 5 月 28 日,OpenBMB 正式开源了 PilotDeck——一个以 WorkSpace 为核心的 Agent 操作系统。项目由清华大学 THUNLP、ModelBest(面壁智能)、OpenBMB、AI9Stars 联合开发,TypeScript 编写,AGPL-3.0 协议,上线一周即获 400+ stars。

这不是又一个聊天机器人前端。PilotDeck 要解决的是一个更根本的问题:当你同时用 Agent 跑多个项目,记忆怎么隔离?成本怎么控制?人不在的时候活还能不能继续干?

先说结论:它到底在做什么

用一句话概括:PilotDeck 是给"同时跑多个长任务的 Agent"设计的操作系统。

市面上已经有不少优秀的 Agent 工具了。Claude Code、Cursor、Trae Solo 把模型推理深度嵌入编程 IDE;Claude Cowork 引入了项目级隔离;WorkBuddy 把 Agent 接入了飞书和企业微信。但当你从"单次编程"或"即时问答"切换到多项目并行的长周期生产力工作时,有几个问题始终没有好的答案:

  • 多个项目并行,记忆能白盒可追溯吗?Agent 记错了东西,你能定位到是哪条记忆出了问题吗?能直接编辑吗?
  • Token 成本能按任务追踪吗?能不能让简单任务自动用便宜模型、复杂任务才用旗舰模型?
  • 人离开键盘,活还能继续干吗?Agent 能自己发现值得做的事、主动报告进度吗?

PilotDeck 就是围绕这三个问题设计的。

三大核心能力

白盒记忆(White-box Memory)

这是 PilotDeck 最独特的功能。

当前大多数 Agent 的记忆是黑盒的——你知道 AI 输出了什么,但不知道它"记住了"什么、怎么记住的、为什么会引用某个过时的信息。出了问题,你只能开新对话从头来。

PilotDeck 把记忆的全流程做成白盒:

维度 黑盒 Agent PilotDeck 白盒记忆
可见性 只能看到输出,看不到记忆内容 每条记忆都能查看:存了什么、什么时候存的、属于哪个 WorkSpace
可控性 写入后无法编辑或删除 可以编辑/删除/置顶关键决策,防止漂移
可追溯 出了问题找不到根因 生成→提取→存储→检索,全链路可审计
隔离性 共享记忆池,项目间互相污染 按 WorkSpace 隔离,A 的记忆不会跑到 B
可逆性 压缩后原始内容丢失 Dream Mode 支持一键回滚

还有一个有趣的设计叫 Dream Mode(做梦模式)。在 Agent 空闲时自动整理和压缩记忆,类似于人类睡眠时的记忆巩固过程。而且支持一键回滚——如果"做梦"后记忆出了问题,可以撤销回到之前的状态。

智能路由(Smart Routing)

这个功能解决的是"杀鸡不用牛刀"的问题。

不是每个任务都需要 Claude Opus 4.5 或 GPT-4o。简单的格式化、润色、布局调整用轻量模型就够了,只有复杂的规划、推理才需要旗舰模型。但在大多数 Agent 系统里,你要么全程用贵模型烧钱,要么全程用便宜模型牺牲质量。

PilotDeck 的 Smart Routing 自动检测任务难度:

  • 复杂调用(规划、多步推理、代码架构)→ 旗舰模型(如 Claude Opus 4.5)
  • 简单调用(润色、格式化、布局)→ 轻量模型(如 Sonnet 4.5)

官方给出的数据很有说服力。在小红书风格社媒运营场景中:

配置 模型组合 成本 倍率
Smart Routing 开启 Opus 4.5(主)+ Sonnet 4.5(副) $2.83 1.1×
Smart Routing 关闭 全部 Opus 4.5 $12.58 5.0×
单体模式 单 Opus 4.5 长程 Agent(估算) $12.20 4.8×

约 70% 的成本节省,而且输出质量不降。

更有意思的是,"强主 + 轻副"的路由组合在复杂任务上甚至能超越单一旗舰模型。7 个复杂任务(多语言播客推送、多源数据报告、文献综述、代码架构文档等)的基准测试:

配置 得分 成本
MiniMax-M2.7 单 Agent 37.1 $1.90
Claude Sonnet 4.6 单 Agent 69.1 $18.36
Sonnet 4.6(主)+ MiniMax-M2.7(副) 70.6 $3.15

得分最高,成本只有单一旗舰模型的 1/6。这背后的逻辑是:旗舰模型负责规划和决策,轻量模型负责执行,分工比单打独斗更高效。

Always-on 后台执行

大多数 Agent 都是"你问它答"的模式。你关掉终端、合上笔记本,Agent 就停了。

PilotDeck 打破了这个限制。它支持 Always-on 模式:你签退之后,Agent 继续在后台工作——发现候选任务、运行长时间监控、把交付成果保存为本地文件。等你回来,一份总结报告已经准备好了。

这对于需要长时间运行的任务特别有用:数据管道监控、定时报告生成、大规模代码重构。你不需要一直盯着屏幕。

WorkSpace:一切的核心抽象

三大能力之上,PilotDeck 有一个统一的抽象层:WorkSpace

每个项目是一个 WorkSpace,拥有完全隔离的文件系统、记忆存储和技能集。这意味着:

  • 你同时做 A 项目和 B 项目,两个项目的记忆不会互相污染
  • A 项目的风格偏好不会影响 B 项目的输出
  • 每个 WorkSpace 可以独立配置模型、工具和权限
  • 随着任务推进,技能自然积累——不需要手动维护全局上下文

这跟 Claude Cowork 的项目级隔离思路类似,但 PilotDeck 做得更彻底:不只是文件隔离,记忆、技能、模型配置都是 WorkSpace 级别的。

技术架构

从代码结构来看,PilotDeck 的架构相当模块化:

src/
├── agent/          # Agent 核心:loop, runtime, session, sub-agent
├── always-on/      # Always-on 后台执行:runtime, protocol, workspace
├── context/        # 上下文管理:memory, compaction, budget, recovery
├── router/         # 智能路由:orchestrate, scenario, tokenSaver, stats
├── mcp/            # MCP 协议:client, runtime, protocol
├── gateway/        # API 网关
├── extension/      # 插件系统
├── lifecycle/      # 生命周期管理
├── permission/     # 权限控制
├── tool/           # 工具接口
├── session/        # 会话管理
├── task/           # 任务系统
├── adapters/       # 前端适配器(Web/CLI/IM)
├── pilot/          # Pilot 核心
├── cli/            # 命令行接口
├── cron/           # 定时任务
├── model/          # 模型抽象层
├── web/            # Web 服务
ui/                 # 前端(React + Vite + Tailwind + shadcn/ui)
skills/             # 内建技能(skill-creator, find-skills 等)

几个值得注意的模块:

  • context/memory/:白盒记忆的实现,包括存储、检索、提取
  • context/compaction/:记忆压缩(Dream Mode 的核心)
  • context/budget/:上下文预算管理
  • router/orchestrate/:主副 Agent 的编排逻辑
  • router/tokenSaver/:Token 节省策略
  • always-on/runtime/:后台执行的运行时
  • agent/sub/:Sub-agent 管理(主副模型分工的实现)

支持的前端:Web UI、桌面应用(macOS / Windows)、命令行、IM(飞书/企业微信)。通过 adapters/ 层统一适配,行为一致。

安装和使用

三种安装方式:

一行安装(macOS / Linux):

curl -fsSL https://raw.githubusercontent.com/OpenBMB/PilotDeck/main/install.sh | bash

从源码构建:

git clone https://github.com/OpenBMB/PilotDeck.git
cd PilotDeck
npm install && cd ui && npm install

Docker Compose:

docker compose up -d

还有桌面应用,macOS(Apple Silicon)和 Windows(x64 / ARM64)都有预构建安装包,双击即用。

模型配置支持 OpenAI、Anthropic、DeepSeek、Qwen、Kimi、MiniMax 等所有 OpenAI 兼容端点,可以在 YAML 文件里配,也可以在 Web UI 里可视化配置。

跟同类项目比,差异在哪

PilotDeck 跟 Claude Code、OpenClaw、Hermes 等 Agent 工具的定位有明显差异:

维度 Claude Code OpenClaw PilotDeck
核心场景 编程 IDE 通用 Agent 多项目生产力
隔离粒度 项目级 全局 WorkSpace 级(文件+记忆+技能)
记忆管理 隐式 隐式 白盒可编辑可回滚
模型路由 单一模型 单一模型 自动难度检测+多模型协同
后台执行 Always-on
开源协议 未开源 开源 AGPL-3.0

PilotDeck 的独特价值在于多项目并行的长周期场景。如果你只用 Agent 做单次编程或即时问答,Claude Code 或 Cursor 可能更适合。但如果你同时跑 5 个项目、需要记忆隔离和成本控制、还需要 Agent 在后台继续干活——PilotDeck 填补的正是这个空白。

几个值得思考的点

AGPL-3.0 协议的选择。 这意味着如果你基于 PilotDeck 做网络服务,必须开源你的修改。对企业用户来说需要注意这个约束。

版本节奏很快。 v0.0.9(5月25日)→ v0.0.10(5月26日)→ v0.0.11(5月27日),连续三天发版。说明团队在密集迭代,但也意味着 API 可能还不稳定。

清华系 AI 的开源传统。 OpenBMB 之前开源了 CPM、ChatGLM 等有影响力的项目。PilotDeck 是他们从"模型"向"Agent 基础设施"延伸的尝试。联合团队中 ModelBest(面壁智能)负责商业化落地,THUNLP 负责研究方向。

Smart Routing 的泛化潜力。 "强主 + 轻副"的分工模式不只适用于 PilotDeck 的场景。这个思路对任何需要控制 LLM 成本的系统都有参考价值:规划用贵模型,执行用便宜模型。PilotDeck 用数据证明了这条路走得通。


项目信息:
- GitHub:https://github.com/OpenBMB/PilotDeck
- 官网:https://pilotdeck.openbmb.cn
- 协议:AGPL-3.0
- 语言:TypeScript
- 版本:v0.0.11(截至 2026-05-28)
- 联合开发:清华 THUNLP、ModelBest、OpenBMB、AI9Stars


作者: itech001
来源: 公众号:AI人工智能时代
网站: https://www.theaiera.cn/
每日分享最前沿的AI新闻资讯和技术研究。

本文首发于 AI人工智能时代,转载请注明出处。