

























核心洞察:过去四年,从大模型产品形态的所有重要突破来看,真正驱动体验的并非模型参数量的增长,而是 token 在系统内流动方式的重新设计。CoT/PAL 在决定「不确定性放在哪里」;ReAct/CodeAct 在决定「一次 forward 写多少」;Voyager/Skills 在决定「跑过的东西如何复用」;Code Execution with MCP 在决定「上下文如何按需加载」。2025-2026 年,这场「IO 架构的设计游戏」已经升级为 Agent 框架、协议标准与编排范式的全面竞争。
从 2022 年 ChatGPT 引爆生成式 AI 浪潮至今,行业叙事始终围绕一个核心命题:模型参数越大、训练数据越多、推理能力越强,产品体验就越好。这套叙事推动了一场耗资数千亿美元的算力军备竞赛,也催生了 GPT-4、Claude 3、Gemini 2.5 等一系列令人印象深刻的模型。然而,如果我们把过去四年所有真正改变用户交互方式的产品突破逐一拆解——从 CoT 推理可视化到 CodeAct 编码代理,从 MCP 工具生态到 Dynamic Workflows 多代理编排——会发现一个反直觉的规律:这些突破的本质并非模型底层能力的跃迁,而是系统工程师对 token IO 路径的重新设计。
用一个简单的比喻来说明:模型能力是引擎的排量,而 IO 架构是变速箱的齿比设计。一辆搭载 6.0L V12 引擎但匹配单速变速箱的车,在实际道路表现上可能远不如一辆 2.0T 引擎匹配 8 速双离合变速箱的车。过去四年的产品演进,本质上是一群顶尖系统工程师在反复调试「变速箱齿比」的过程——他们不是让引擎更有力,而是让每一滴燃油(token)都更高效地转化为车轮的扭矩(用户价值)。
这一洞察对产品经理和决策者具有直接的现实意义。当你评估一个 AI 产品方案时,与其追问「用了什么模型」,不如追问「token 在系统内如何流动」——不确定性被隔离在哪个环节?一次前向传播承载多少决策?历史经验如何被复用?上下文在什么粒度上被加载?这四个问题,才是决定产品体验、成本结构和扩展性的关键变量。
2022 年,Wei 等人提出的 Chain-of-Thought(CoT)Prompting 首次系统性地证明了一个简单却强大的想法:让模型在给出最终答案之前,先一步一步写出思考过程 (Claude Code Dynamic Workflows 深度解析) 。在 GSM8K 数学推理 benchmark 上,CoT 将 GPT-3 的准确率从 18% 提升到 58%,这一增幅不是靠模型微调实现的,而是完全通过改变输入提示的格式——即在问题后面追加 "Let's think step by step"。
从产品形态看,CoT 的核心设计决策是:把推理的不确定性「摊开」在上下文中,让模型(以及用户)能看到每一步的中间状态。这看似是一个简单的提示工程技巧,但其深层含义在于它重新定义了 token 的「用途分类」——在此之前,上下文中的每一个 token 要么是用户输入,要么是模型输出;CoT 之后,上下文中出现了一类新的 token:reasoning tokens(推理 token),它们不直接面向用户,而是作为模型自我校准的「草稿纸」。
然而,CoT 有一个根本性的产品缺陷:推理过程和计算过程都压在自然语言里。当多步算术介入时,错误会在每一步被放大。假设单步推理的错误率为 ε,一条 N 步推理链整链正确的概率约为 (1−ε)^N,随长度指数衰减 (Claude Code Dynamic Workflows 深度解析) 。CoT 鼓励模型把链拉得越长越好,等于把这条指数衰减曲线打满。这意味着 CoT 在很多场景里其实是一种「让模型显得在思考」的表演——它的真正价值更接近「给模型多一点 token 算预算」,而不是「更可靠的推理路径」。
几乎与 CoT 同期,两篇关键论文给出了同一个直觉:把推理这件事拆开。PAL(Program-aided Language Models,Gao 等,2022)让模型把自然语言问题翻译成可运行的 Python 程序,再把求解步骤外包给 Python 解释器;模型只负责「写出怎么算」,不负责「算对」 (Claude Code Dynamic Workflows 深度解析) 。PoT(Program of Thoughts,Chen 等)走的是同一条路:把逻辑推理和数值计算解耦,用代码承担计算,把孤立步骤的累积误差砍掉。
两者在 GSM-hard、FinQA 等数学/金融基准上对 CoT 实现了 8%–40% 不等的提升 (Claude Code Dynamic Workflows 深度解析) 。这个提升幅度的意义远超数字本身——它证明了一个产品设计原则:当不确定性可以被隔离到一个确定性执行环境(如 Python 解释器)时,系统整体可靠性会跃升一个数量级。
| 维度 | CoT (Chain-of-Thought) | PAL (Program-Aided Language) |
|---|---|---|
| 不确定性位置 | 分布在自然语言推理链的每一步 | 集中在「自然语言→代码」的翻译环节 |
| 计算执行者 | 模型自身(next-token 采样) | Python 解释器(确定性执行) |
| 错误传播模式 | 指数衰减:(1−ε)^N | 线性可控:翻译错误 + 执行错误 |
| 上下文占用 | 推理链全部摊开在上下文中 | 仅保留程序代码和最终输出 |
| 典型提升幅度 | GSM8K: 18%→58% | GSM-hard: +8%–40% vs CoT |
| 产品形态 | 推理过程可见(透明度高) | 中间计算黑盒化(效率优先) |
这一阶段的 IO 架构博弈,本质上是 「不确定性治理」 的策略选择。CoT 选择了透明但脆弱的方案(全部暴露在上下文中),PAL 选择了隔离但黑盒的方案(把不确定性锁在解释器门口)。这个权衡框架至今仍在影响产品设计——2025 年 OpenAI o3 的隐藏推理链 vs DeepSeek R1 的可见思维链,正是这一博弈的延续。
2023 年,Yao 等人提出的 ReAct(Reasoning + Acting)框架将 CoT 的思路扩展到了一个更广阔的领域:让模型在推理和行动之间交替进行 (arXiv.org) 。与 CoT 只「思考」不「行动」不同,ReAct 的每一次 forward 都包含两个部分:先输出一段自然语言推理(Thought),再输出一个行动指令(Action)——可能是调用搜索工具、查询数据库或执行代码。观察环境返回结果后,模型进入下一轮推理-行动循环。
ReAct 的产品形态意义在于它定义了 Agent 循环的基本节拍:Think → Act → Observe → Think → ... 这个循环成为了此后几乎所有 Agent 框架的底层节拍器。但 ReAct 也引入了一个根本性的 IO 效率问题:每一步推理和行动都需要一次完整的前向传播,而每次前向传播的上下文都要携带完整的历史记录(之前的所有 Thought、Action、Observation)。这意味着随着任务步骤的增加,上下文长度线性增长,而每步的边际成本保持不变。
2024 年,Wang 等人提出的 CodeAct 给出了一个更激进的答案:直接把可执行 Python 代码作为唯一的行动空间 (arXiv.org) 。在 CodeAct 架构中,模型不再输出离散的「工具调用」指令,而是直接编写一段 Python 代码,由解释器执行。这段代码可以包含循环、条件判断、变量赋值、函数定义——本质上,模型在一次 forward 中可以表达任意复杂的计算逻辑。
CodeAct 的 IO 效率优势是显著的。传统 ReAct 需要 10 次 forward 才能完成的循环+条件逻辑,CodeAct 可以在 1 次 forward 中通过一段 Python 代码完成。这不是模型变聪明了,而是一次 forward 承载的「信息量」发生了质变——从单个工具调用的粒度,提升到了完整程序脚本的粒度。
| 维度 | ReAct | CodeAct |
|---|---|---|
| 一次 forward 的输出 | 一段 Thought + 一个 Action | 一段可执行 Python 代码 |
| 循环/条件表达 | 需多轮 forward 实现 | 单轮 forward 内完成 |
| 上下文增长模式 | 线性增长(每步追加) | 亚线性增长(代码压缩逻辑) |
| 错误恢复成本 | 低(单步失败可重试) | 高(代码失败需重新生成) |
| 适用场景 | 探索性任务、需人类监督 | 确定性计算、批处理任务 |
| 代表产品 | 早期 ChatGPT Plugins、Perplexity | Claude Code、OpenAI Codex |
2025-2026 年,这一博弈的最新变体是 OpenAI Codex 的 Goal Mode 与 Claude Code 的 Dynamic Workflows。Codex Goal Mode 让模型在单次会话中自主工作「数小时甚至数天」,本质上是把一次 forward 的边界扩展到了极端——整个工作流变成了一次超长的「代码生成+执行」过程 (QCode.cc) 。而 Claude Dynamic Workflows 则走了另一条路:Claude 动态生成 JavaScript 编排脚本,在运行时独立调度和验证数百个并行子代理 (Claude) 。两者都在回答同一个问题,但给出了不同的答案:Codex 选择「一次 forward 写尽可能多的代码」,Dynamic Workflows 选择「一次 forward 写一个编排器,让它去管理更多 forward」。
2023 年的 Voyager 项目(Wang 等)首次系统性地将「技能复用」作为 Agent 架构的一等公民 (arXiv.org) 。在 Minecraft 开放世界环境中,Voyager 不仅让 Agent 完成任务,更重要的是把成功的任务执行轨迹提取为可复用的代码技能(skill),存入一个外部技能库。当遇到新任务时,Agent 先检索相关技能,再加载到上下文中指导执行。
Voyager 的 IO 架构创新在于它引入了一个 「技能缓存层」——介于模型参数(长期记忆)和上下文窗口(工作记忆)之间的一个可读写存储层。技能库中的每一项都是一个压缩后的「经验包」:包含触发条件、执行代码、使用频次和成功率。这大大降低了模型在新任务上的探索成本:不需要从零开始试错,只需要检索和组合已有技能。
2025-2026 年,Anthropic 将技能概念产品化为 Claude Code Skills——一种模型自触发的可复用指令集 (Duet) 。每个 Skill 是一个包含 SKILL.md 文件的文件夹,定义了特定任务的执行流程。关键设计在于「渐进式披露」(progressive disclosure):Claude 每轮会话只读取所有 skill 的名称和描述(约 100 tokens/skill),只有当用户请求匹配时才加载完整内容(约 5K tokens)。这意味着一个团队可以安装数十个 skill 而不会拖慢日常会话的响应速度。
Skills 的产品意义超越了技术层面——它实际上是 「团队知识」的 token 化封装。一个资深工程师的代码审查标准、一个运维团队的部署流程、一个产品经理的需求分析框架,都可以被编码为 skill 并在团队中复用。2025 年 12 月,Anthropic 将 Agent Skills 规范开源,OpenAI 随即在 Codex CLI 和 ChatGPT 中采用,Gemini CLI、Cursor 等工具也宣布兼容 (Duet) 。这标志着 skill 正在从单一产品的功能,演变为跨生态的标准化知识交换格式。
2024 年 11 月,Anthropic 发布了 Model Context Protocol(MCP),旨在解决一个 N×M 的集成难题:每个 Agent 框架需要为每个外部工具写定制连接器,导致集成成本随工具数量和框架数量的乘积增长 (Anthropic) 。MCP 采用客户端-服务器模型:MCP 服务器暴露标准化的工具接口(通过 JSON-RPC),任何兼容 MCP 的 Agent 都可以调用。
MCP 的 IO 架构意义在于它将工具调用从「上下文内联」模式转变为「按需加载」模式。传统方式下,所有可用工具的 schema 都需要在每次请求时放入系统提示(system prompt)中——一个典型的 5 服务器 MCP 配置会在会话开始前占用约 55,000 tokens (Duet) 。而 MCP 支持渐进式发现:Agent 可以先获取工具目录摘要,再按需加载具体工具的详细定义,将初始上下文占用降低 98.7%(从 150,000 tokens 降至 2,000 tokens) (mbgsec.com) 。
| 维度 | 传统 Function Calling | MCP Protocol |
|---|---|---|
| 工具发现方式 | 预定义 schema 全量注入 | 目录摘要 + 按需加载 |
| 初始上下文占用 | 50K-150K tokens | 2K-5K tokens |
| 工具新增成本 | 需修改系统提示 | 启动新 MCP 服务器即可 |
| 跨框架兼容性 | 无(各框架私有格式) | 有(标准化协议) |
| 安全性边界 | 工具输出直接进入上下文 | 支持数据脱敏和权限控制 |
| 生态规模(2026) | 碎片化 | 150+ 组织支持,5 种 SDK 语言 |
2025 年 4 月,Google 在 Cloud Next 大会上发布了 Agent-to-Agent(A2A)协议,并于 6 月将其捐赠给 Linux Foundation (Atlan) 。A2A 的核心设计围绕三个概念:Agent Cards(能力广告卡片,发布在 /.well-known/agent-card.json)、Task Lifecycle(任务状态机:submitted → working → input-required → completed/failed)、以及基于 HTTP+SSE 的传输层 (DEV Community) 。
A2A 与 MCP 的关系是过去两年最容易被误解的话题。两者的本质区别可以用一句话概括:MCP 解决「一个 Agent 能做什么」,A2A 解决「多个 Agent 能一起做什么」 (DEV Community) 。MCP 是垂直的(Agent→Tool),A2A 是水平的(Agent→Agent)。在生产系统中,两者通常是组合使用的:A2A 负责将任务路由到正确的专家 Agent,MCP 负责为该 Agent 提供所需的工具和数据访问。
到 2026 年 4 月,A2A 已获得 150+ 组织的支持,包括 Google、Microsoft、AWS、Salesforce、SAP、ServiceNow 等 (Atlan) 。GitHub 仓库超过 22,000 stars,SDK 覆盖 Python、JavaScript、Java、Go 和 .NET 五种语言。MCP 则在 2025 年 12 月由 Anthropic 捐赠给 Linux Foundation 后,获得了 OpenAI、Google、Microsoft 等主流平台的原生支持 (futureagi.com) 。
| 协议层 | 解决的问题 | 核心抽象 | 代表实现 |
|---|---|---|---|
| A2A(水平层) | Agent 之间如何发现、委托、协调 | Agent Cards、Task Lifecycle、Artifacts | Google A2A、Azure AI Foundry |
| MCP(垂直层) | Agent 如何访问工具和数据 | Tools、Resources、Prompts、Sampling | Anthropic MCP、OpenAI Agents SDK |
| 两者组合 | 跨厂商多 Agent 系统 | A2A 路由任务 → MCP 提供工具 | 企业级 Agent 架构默认模式 |
2025-2026 年,四大 AI 实验室在 Agent 框架层面形成了鲜明差异化的 IO 架构路线:
OpenAI Agents SDK(2025 年 3 月发布) 的核心设计哲学是「极简的 Handoff」。Agent 之间通过显式的工具调用(transfer_to_agent_b)移交控制权,携带会话历史但不共享状态总线 (Morph AI) 。三层 Guardrails(input/output/tool)默认并行运行,tracing 内置于 OpenAI Traces dashboard。这个架构的优势是简单、快速原型、与 OpenAI 模型深度集成;劣势是 handoff 是线性链而非图拓扑,无原生 A2A 支持,且无内置状态持久化 (Morph AI) 。OpenAI 在 2026 年 4 月发布的 Agents SDK 2.0 增加了沙箱环境、持久执行、MCP 集成和记忆/编排能力 (Consumer Insights & Market Research Platform) 。
Claude Code Dynamic Workflows(2026 年 5 月发布) 代表了另一条极端路线:Claude 根据用户目标动态生成 JavaScript 编排脚本,运行时独立执行,管理多达 1,000 个并行子代理(16 并发上限) (Claude) 。与 OpenAI 的显式 handoff 不同,Dynamic Workflows 的协调发生在上下文窗口之外——计划存储在脚本变量中,中间结果不回流主会话,只有最终答案返回给用户 (MarkTechPost) 。这种「计划外置」设计的关键优势是:无论子代理数量多少,主 Claude 会话的上下文始终保持恒定,避免了上下文膨胀问题。Jarred Sumner 使用 Dynamic Workflows 将 Bun 从 Zig 移植到 Rust(75 万行代码,99.8% 测试通过率,11 天完成),是这一架构能力的最佳证明 (Claude) 。
Google ADK(Agent Development Kit,2025 年 4 月发布) 的设计围绕层次化 Agent 树展开:Root Agent 作为入口,Sub Agents 作为领域专家,通过 ADK 的 SequentialAgent、ParallelAgent、LoopAgent 等工作流原语组合 (博客园) 。ADK 的独特优势在于原生集成 A2A 协议和 Gemini 的 1M+ token 长上下文,以及 Vertex AI 的成熟评估和监控工具链 (infoservices.com) 。其编排模型更适合需要严格流程控制的的企业场景(如审批链、合规检查),但学习曲线相对陡峭,且强绑定 GCP 生态。
DeepSeek V4-Pro(2026 年 4 月预览) 的 IO 架构则体现了模型层与系统层的深度融合。V4-Pro 采用 1 万亿参数 MoE 架构(每 token 激活 37B),支持 100 万 token 上下文和原生多模态(文本+图像+视频) (Github) 。其独特之处在于「思考/不思考」动态路由——模型根据任务复杂度自动决定是否进入深度推理模式,而非由外部系统硬编码规则 (arXiv.org) 。这种「模型自路由」设计简化了上层的编排逻辑,但也意味着 DeepSeek 的 IO 架构更依赖模型自身的能力,而非外部编排框架。

| 维度 | OpenAI Agents SDK | Claude Dynamic Workflows | Google ADK | DeepSeek V4-Pro |
|---|---|---|---|---|
| 编排范式 | 显式 Handoff(线性链) | 动态 JS 脚本生成 | 层次化 Agent 树 | 模型自路由 |
| 并发能力 | 单线程顺序执行 | 16 并发 / 1000 总计 | ParallelAgent 原生支持 | MoE 专家并行 |
| 状态管理 | 无内置(用户自建) | 脚本变量 + 进度保存 | Firestore 持久化 | 上下文内推理链 |
| 上下文策略 | 全量注入(1M window) | 计划外置(仅返回答案) | 长上下文依赖(2M Gemini) | 按需激活(37B/671B) |
| 协议支持 | MCP(2025 年 3 月集成) | MCP(原生) | A2A + MCP 双协议 | Function Calling |
| 锁定程度 | 绑定 OpenAI 模型 | 绑定 Claude 模型 | 强绑定 GCP/Gemini | 开源 MIT(无锁定) |
| 适用场景 | 客户服务路由、快速原型 | 大规模代码迁移、审计 | 企业流程自动化 | 高性价比推理、私有化部署 |
在旗舰模型的 token 定价层面,四家实验室在 2025-2026 年呈现出截然不同的商业策略和成本结构。理解这些差异,是产品决策中「模型选型」这一环节的核心依据。
OpenAI GPT 5.6 于 2026 年 6 月 26 日发布,采用三档分层设计:Sol(旗舰)、Terra(平衡)、Luna(低成本) (ScriptByAI) 。Sol 定价为 $5/1M 输入、$30/1M 输出,Terra 为 $2.50/$15,Luna 为 $1/$6。关键创新在于推理控制:Sol 支持 max reasoning effort(单链深度推理)和 ultra mode(协调 subagents 分布式推理) (MarkTechPost) 。GPT 5.6 还引入了显式 cache breakpoints 和 30 分钟最小缓存生命周期,缓存读取享受 90% 折扣(写入按 1.25x 计费) (ScriptByAI) 。
DeepSeek V4 于 2026 年 4 月 24 日发布,延续了极致性价比路线。V4 Pro 定价为 $0.435/1M 输入、$0.87/1M 输出,V4 Flash 更是低至 $0.09/$0.18 (Price Per Token) 。两者均支持 1M token 上下文和工具调用。作为对比,GPT 5.6 Sol 的输出价格是 V4 Pro 的 34 倍、V4 Flash 的 167 倍。V4 系列基于 1 万亿参数 MoE 架构(每 token 激活 37B),通过 MLA(Multi-head Latent Attention)实现 KV Cache 压缩,在 SWE-bench 等 coding benchmark 上达到 80.9%+ (Your AI Partner) 。
Google Gemini 3.5 Flash 于 2026 年 5 月 19 日 GA,定价 $1.50/1M 输入、$9/1M 输出,比上一代 3.1 Pro($2.50/$15)便宜 40% (nerdleveltech.com) 。Gemini 3.5 Pro 截至 6 月中旬尚未 GA,但预计将在视觉能力、多模态推理和 SVG/前端生成上有显著提升,定价可能高于 3.1 Pro (Pasquale Pillitteri) 。
Claude Opus 4.8 定价为 $5/1M 输入、$25/1M 输出,介于 GPT 5.6 Sol 和 Terra 之间,提供 thinking budget 可调的低/中/高三档推理深度控制 (InfoQ) 。
| 模型 | 定位 | 输入价格 ($/1M) | 输出价格 ($/1M) | 上下文窗口 | 核心架构特点 |
|---|---|---|---|---|---|
| GPT 5.6 Sol | 旗舰(最高能力) | $5.00 | $30.00 | 1M | max/ultra 推理模式,subagent 协调 (MarkTechPost) |
| GPT 5.6 Terra | 平衡(日常生产) | $2.50 | $15.00 | 1M | 接近 GPT 5.5 性能,成本减半 (Senswit) |
| GPT 5.6 Luna | 低成本(高频任务) | $1.00 | $6.00 | 1M | 系列中最快、最便宜的选项 (ScriptByAI) |
| DeepSeek V4 Pro | 旗舰(高性价比) | $0.435 | $0.87 | 1M | 1T MoE,37B 激活,MLA 压缩 (Price Per Token) |
| DeepSeek V4 Flash | 极速(最低成本) | $0.09 | $0.18 | 1M | 107 tok/s,适合高频低延迟场景 (Price Per Token) |
| Gemini 3.5 Flash | 平衡(Agent 优化) | $1.50 | $9.00 | 1M | Terminal-Bench 76.2%,MCP Atlas 83.6% (nerdleveltech.com) |
| Claude Opus 4.8 | 旗舰(深度推理) | $5.00 | $25.00 | 1M | Thinking budget 三档可调 (InfoQ) |
2026 年 6 月 27 日,DeepSeek 联合北京大学发布了一篇由梁文锋署名的论文,推出了 DSpark 投机解码框架及配套开源工具链 DeepSpec (36氪) 。这次更新没有发布任何新模型——它完全基于现有的 DeepSeek V4 权重,只是在模型之上附加了一个轻量级的「草稿模块」(draft module) (MarkTechPost) 。然而,正是这个「非模型」的工程设计,将 V4-Flash 的单用户生成速度提升了 60%-85%,V4-Pro 提升了 57%-78%,高并发场景下聚合吞吐量更是提升了 51%-400% (PANews) 。
DSpark 的核心价值,恰恰是对本文核心论点的最佳验证:真正改变产品体验的,不是模型参数的增加,而是 token 在系统内流动方式的重新设计。
传统自回归 LLM 的 token 生成方式,可以类比为「逐词书写」——每生成一个 token 都需要调用一次完整的主模型前向传播。对于 DeepSeek V4 这样的 1.6T 参数 MoE 模型(每 token 激活 49B),这意味着每个输出词都代价高昂。DSpark 引入的推测性解码(Speculative Decoding)彻底改变了这一流程 (cfi.cn) :
首先,一个轻量级的草稿模型(draft model)以极快速度并行生成一整块候选 token(比如 8-16 个);然后,主模型在单次前向传播中批量验证这整块候选 token,接受最长的有效前缀,并追加一个 bonus token。拒绝采样机制严格保证:最终输出的概率分布与原始模型逐词生成完全一致——加速是零损失的 (36kr.com) 。
用 IO 架构的语言来描述,DSpark 把 token 生成的「原子操作」从单个 token 放大到了整块 token block。每轮循环的延迟公式为 L = (Tdraft + Tverify) / τ,其中 τ 是每轮接受的 token 数量 (MarkTechPost) 。DSpark 同时拉动了三个杠杆:让草稿生成更快(降低 Tdraft)、让草稿质量更高(提升 τ)、让验证更智能(减少浪费的 Tverify)。
DSpark 并非首个投机解码框架,此前的 Eagle3 和 DFlash 已经探索了这一方向。DSpark 的突破在于解决了两个生产级痛点 (36kr.com) :
半自回归生成架构(Semi-Autoregressive Generation)保留了并行草稿的高吞吐优势,同时加入轻量级串行模块对 block 内 token 之间的依赖关系进行建模。传统并行草稿的问题在于:block 越往后,token 之间的上下文关联越弱,接受率呈指数衰减。DSpark 的串行模块相当于给草稿注入「局部记忆」,使后续位置的接受率显著改善——在 Qwen3 系列模型上,平均接受长度比 Eagle3 提升 26.7%-30.9%,比 DFlash 提升 16.3%-18.4% (MarkTechPost) 。
硬件感知的置信度调度验证(Confidence-Scheduled Verification)引入了一个「置信度头」,实时评估每个候选 token 被主模型接受的概率。结合当前 GPU 负载和并发请求数,系统动态调整每轮验证的 token 数量:GPU 空闲时多验证几个,高并发时少验证几个,避免将算力浪费在极大概率被拒绝的尾部 token 上 (来源) 。
与 DSpark 同步开源的 DeepSpec(MIT 许可证)是一个完整的训练工具链,包含数据准备、草稿模型训练、评估脚本三个阶段,内置支持 DSpark、DFlash、Eagle3 三种算法,目标模型兼容 Qwen3 和 Gemma (Github) 。其战略意义远超技术本身:
首先,它将此前散落在各研究团队的工程实践整合为标准化、可复现的工具链,开发者可以直接为自己的模型训练定制草稿模型,跳过重复的基础设施搭建 (36kr.com) 。其次,通过支持 Qwen3 和 Gemma 等竞争对手的模型家族,DeepSeek 实际上将自己的推理优化方法论推向了行业标准的地位——开发者在 DeepSpec 上训练草稿模型的过程,就是熟悉 DeepSeek 优化哲学的过程 (Pandaily) 。
这是 DeepSeek 完成 500 亿元融资后的首次开源动作 (36氪) ,释放的信号异常清晰:大模型竞争正从「拼参数」全面转向「拼速度、拼工程优化、拼落地成本」。DSpark 已在 DeepSeek V4 的真实线上流量中部署 (PANews) ,证明其具备生产级可靠性——这不是实验室的 benchmark 数字,而是每天服务数百万用户的真实系统。
| 维度 | 传统自回归生成 | DSpark 投机解码 |
|---|---|---|
| token 生成方式 | 逐 token 串行生成 | block 级并行草稿 + 批量验证 |
| 每轮前向传播输出 | 1 个 token | 8-16 个 token(接受长度) |
| 延迟公式 | L = Tverify | L = (Tdraft + Tverify) / τ |
| 输出质量 | 基准 | 零损失(拒绝采样保证分布一致) (36kr.com) |
| 单用户速度提升 | 基准(MTP-1) | V4-Flash: +60-85%; V4-Pro: +57-78% (PANews) |
| 高并发吞吐提升 | 基准 | +51-400%(取决于并发级别) (新浪财经网) |
| 草稿模型开销 | 无 | < 10% 总算力 (36kr.com) |
| 生产部署状态 | 标准方案 | 已部署于 DeepSeek 线上真实流量 (templates) |
2026 年上半年,一个超越单一产品或公司的工程方法论正在 Agent 生态中快速成型:先用 Claude Code Dynamic Workflows 做原型和探索,模式稳定后用 MetaSKILL 模板固化成可审计、可回放的生产级工作流。这一「原型-固化」双阶段范式,代表了 Agent 工程从「玩具演示」走向「企业级部署」的关键跃迁 (Claude Code Dynamic Workflows vs OpenClaw.NET MetaSKILL - 张善友 - 博客园) 。
Claude Code Dynamic Workflows 的设计哲学是 「代码即编排」(Code-as-Orchestration)——Claude 根据用户目标动态生成可执行的 JavaScript 脚本,在 Node.js 沙箱中驱动多 Agent 协作 (Claude) 。这种模式的图灵完备性赋予了它极致的灵活性:你可以写 pipeline() 做流式多阶段处理、parallel() 做并行屏障同步、agent() 生成子 Agent 执行特定任务、budget 控制 Token 消耗、isolation: 'worktree' 隔离并行修改 (Claude Code Dynamic Workflows vs OpenClaw.NET MetaSKILL - 张善友 - 博客园) 。
对于原型探索阶段,这种模式具有不可替代的优势。编排逻辑本身就是可执行代码,不需要额外的配置语言或声明文件——工程师可以直接在 JavaScript 中嵌入条件判断、循环、变量计算,快速试验不同的工作流拓扑。一个典型的代码审查工作流可以在几十行 JavaScript 内完成:先并行审查多个维度(安全、性能、可读性),再对每个发现进行验证,最后汇总确认的问题 (Claude Code Dynamic Workflows vs OpenClaw.NET MetaSKILL - 张善友 - 博客园) 。
然而,代码即编排的生产级短板同样明显:编排逻辑散落在会话内的 JavaScript 脚本中,没有持久化的审计轨迹,没有声明期的结构校验,没有原生的人工暂停点,也没有四层超时保护。当工作流从「一次性探索」变为「每日运行的生产管线」时,这些缺失会变得致命。
MetaSKILL 的设计哲学是 「声明即编排」(Declaration-as-Orchestration)——用 YAML 文件声明一个 DAG(有向无环图)工作流,由 .NET 运行时解析、校验并调度执行 (MetaSKILL 与 SKILL:多视角深度综述 - 张善友 - 博客园) 。与 Dynamic Workflows 的图灵完备 JavaScript 不同,MetaSKILL 的 DAG 结构是有意受限的(无循环、严格依赖声明),这种受限性恰恰是其生产级可靠性的来源。
OpenClaw.NET 的 MetaSKILL 实现了六种步骤类型,覆盖了从推理到人工介入的完整光谱 (MetaSKILL 与 SKILL:多视角深度综述 - 张善友 - 博客园) :
| 步骤类型 | 执行方式 | 工具访问 | 成本 | 适用场景 |
|---|---|---|---|---|
| agent | 委托到其他 Skill 指令 | 完整 | 最高 | 开放式推理与综合分析 |
| llm_classify | 强制返回闭集合标签 | 无 | 最低 | 路由分类器 |
| llm_chat | 有界 LLM 生成 | 无 | 低 | 有界综合 |
| tool_call | 直接工具调用 | 直接 | 最低 | 确定性副作用 |
| skill_exec | 子进程执行 | 子进程 | 低 | CLI 包装的 Skill 执行 |
| user_input | 暂停等待人工输入 | 无 | 暂停开销 | 人工介入澄清表单 |
这六种步骤的精妙之处在于成本梯度设计——llm_classify 和 tool_call 的成本极低(无 LLM 推理或仅有确定性执行),适合作为工作流的「路由层」和「动作层」;agent 成本最高但能力最强,适合放在关键决策节点;user_input 提供了原生的人工介入检查点,这是生产系统中不可或缺的「安全阀」 (MetaSKILL 与 SKILL:多视角深度综述 - 张善友 - 博客园) 。
MetaSKILL 解决了单 Skill 无法应对的六个生产级工程问题 (MetaSKILL 与 SKILL:多视角深度综述 - 张善友 - 博客园) :
有界执行(Bounded Execution):通过 timeout_seconds + retry + 合约封顶(四层有界执行),确保工作流不会无限卡死。人工介入(Human-in-the-loop):user_input 检查点支持暂停-恢复机制——工作流状态保存到 Session,恢复时已完成步骤不重新执行。失败降级(Graceful Degradation):on_failure 替代步骤 + continue_on_error 控制错误传播 + 输出镜像机制(fallback 输出写入主步骤 ID 的 outputs 槽位,下游无感知)。审计追踪(Audit Trail):完整的执行日志持久化 + CLI 查询,满足合规要求。声明期校验(Parse-time Validation):DAG 结构在解析时即校验(唯一 ID、依赖引用、无环校验、8 项 Route 目标校验),而非等到运行时才暴露错误。安全门禁(Security Gate):tool_allowlist + metadata.capabilities + MetaSkill.Enabled 三重门控,配合 ClawHub 安装前的 VirusTotal + ClawScan 扫描 (MetaSKILL 与 SKILL:多视角深度综述 - 张善友 - 博客园) 。
| 维度 | Claude Code Dynamic Workflows(原型) | OpenClaw.NET MetaSKILL(生产) |
|---|---|---|
| 设计范式 | 代码即编排(Code-as-Orchestration) | 声明即编排(Declaration-as-Orchestration) |
| 图灵完备 | 是(JavaScript 完整表达能力) | 否(DAG,无循环,有意受限) |
| 编排形式 | 可执行 JavaScript 脚本 | YAML 声明式 DAG |
| 声明期验证 | 运行时暴露错误 | 解析时 + 运行时双重校验 |
| 审计持久化 | 会话内(无持久化) | 持久化 + CLI 查询 |
| 人机交互 | 无原生暂停点 | user_input 检查点 + 暂停-恢复 |
| Token 预算 | budget 感知 |
全局变量 + 合约封顶 |
| 超时保护 | 无 | 四层有界执行 |
| 安全门禁 | 沙箱隔离 | 三步门控(allowlist + capabilities + policy) |
| 最适合 | 探索性、一次性、程序员驱动 | 生产级、可审计、长期维护 |
这套「原型-固化」双阶段范式为企业 Agent 工程提供了一条清晰的落地路径:第一阶段,让工程师用 Claude Code Workflows 在 1-2 周内快速验证工作流模式——尝试不同的步骤组合、调整 Agent 分工、优化 Token 消耗。这个阶段的目标是「发现正确的工作流拓扑」,而非追求工程完美。第二阶段,当模式稳定后,将其翻译为 MetaSKILL 的 YAML DAG 声明——添加 timeout_seconds、on_failure、user_input 检查点,接入审计日志,部署到 .NET Gateway 服务器。这个阶段的目标是「让工作流成为可维护、可审计、可回放的工程资产」 (Claude Code Dynamic Workflows vs OpenClaw.NET MetaSKILL - 张善友 - 博客园) 。
两种范式的共同洞察是:复杂 AI 工作流不能靠单一长 prompt 驱动,需要显式的编排结构。区别在于 Claude Code 选择「用代码表达编排」,MetaSKILL 选择「用声明约束编排」。对于产品经理而言,这意味着在规划 Agent 产品时,需要同时考虑「探索阶段」和「生产阶段」的工具选型——两者不是竞争关系,而是同一工程生命周期的前后阶段。
回顾四年的演进,可以提炼出四条贯穿始终的 IO 架构设计原则:
原则一:不确定性隔离。从 PAL 将计算外包给 Python 解释器,到 MCP 将工具 schema 从上下文中剥离,再到 Dynamic Workflows 将编排计划存储在脚本变量中——每一次架构升级都在把某类不确定性从模型的 next-token 采样中隔离出去,交给更确定性的执行环境。
原则二:一次 forward 的粒度最大化。从 CoT 的单步推理,到 ReAct 的单步行动,到 CodeAct 的单段代码,再到 Dynamic Workflows 的单个编排脚本,再到 DSpark 的 block 级并行校验——系统工程师持续在推动「一次 forward 能完成多少工作」的边界。这不是让模型变快,而是减少 forward 的次数,或将每次 forward 的产出最大化,从而降低整体延迟和成本。
原则三:经验的外部化与复用。从 Voyager 的技能库,到 Claude Code Skills 的团队知识封装,再到 A2A 的 Agent Cards 能力广告——成功的执行轨迹正在被系统化地提取、压缩和复用,而不是每次都从零开始生成。
原则四:上下文的按需加载。从 MCP 的工具渐进式发现,到 Claude Skills 的渐进式披露,再到 Dynamic Workflows 的计划外置——上下文窗口正在被当作一种稀缺资源进行精细化管理,只在需要时加载所需信息,避免「把所有东西塞进 prompt」的低效模式。
对于正在规划 AI 产品路线图的决策者,以下是一个基于 IO 架构视角的评估框架:
| 决策维度 | 关键问题 | 选项 A(效率优先) | 选项 B(灵活性优先) |
|---|---|---|---|
| 不确定性治理 | 错误成本有多高? | PAL/CodeAct(隔离到解释器) | CoT/ReAct(保留在人类可读层) |
| Forward 粒度 | 任务可预测性如何? | CodeAct/Goal Mode(大批量脚本) | ReAct/Dynamic Workflows(迭代式) |
| 经验复用 | 团队知识是否成熟? | Skills/MCP(封装复用) | 零样本/少样本提示(即时生成) |
| 上下文管理 | 工具/数据规模多大? | MCP 渐进加载 + 外置计划 | 全量注入 + 上下文压缩 |
| 生态锁定 | 长期供应商策略? | A2A + MCP(跨厂商互操作) | 原生 SDK(深度优化) |
基于当前的技术演进轨迹,可以识别出三个即将形成主流的趋势:
趋势一:Agent 技能市场(Skill Marketplace)的崛起。随着 Agent Skills 规范的开源和跨平台采用,2026 年正在出现一个围绕「可复用 Agent 技能」的新市场层。企业将不再从零构建 Agent,而是从市场采购和组合技能——类似于 App Store 对移动应用开发模式的改变。Skills 的定价模式可能从「按 token 计费」转向「按技能调用计费」,创造一个新的商业层。
趋势二:Token 预算管理成为基础设施。随着 Agent 的自主性提升(Codex Goal Mode 可运行数天,Dynamic Workflows 可调用 1000 个子代理),无节制的 token 消耗已成为生产部署的最大风险。2026 年的生产级 Agent 系统必须包含网关级别的 token 预算控制:per-request 上限、per-session 滚动预算、per-key 月度封顶、模型 tier 路由规则 (Datum Fuse LLC) 。这正在催生一个新的「Agent 网关」产品类别。
趋势三:推理成本的分化与路由智能化。四家实验室的定价策略正在剧烈分化:OpenAI GPT 5.6 Sol 走高端企业路线(输出 $30/1M),DeepSeek V4 Flash 走极致性价比路线(输出 $0.18/1M,相差 167 倍),Google Gemini 3.5 Flash 走中间批量路线(输出 $9/1M)。这种价格鸿沟正在催生 智能路由层——根据任务类型、成本约束、延迟要求自动选择模型 tier。Morph 等第三方路由服务已实现 40-70% 成本削减 (Morph AI) ,这一能力将在 2026 年成为所有 Agent 系统的标配组件。
趋势四:"原型 → 固化"双阶段工作流范式的标准化。如 5.5 节将详述的,企业正在形成一套成熟的方法论:先用 Claude Code Workflows 等代码即编排工具快速探索工作流模式,模式稳定后通过 MetaSKILL 等声明式 DAG 引擎将其固化为可审计、可回放的生产级工作流。这种"探索-固化"双轨制将成为 Agent 工程的标准实践。
大模型行业正在经历一场悄无声息的范式转移。竞争的焦点已经从「谁有最大的模型」转向「谁设计了最高效的 token 流动方式」。OpenAI 的 GPT 5.6 三档分层用定价策略重构了模型服务的经济模型;Anthropic 的 Dynamic Workflows 用「计划外置」突破了上下文窗口的物理限制;Google 的 A2A + MCP 双协议栈构建了跨厂商互操作的基础设施层;DeepSeek 的 V4 + DSpark 组合用投机解码证明:无需改变模型权重,仅靠重新设计 token 生成方式,就能将推理速度提升 85%。而 OpenClaw.NET MetaSKILL 与 Claude Code Workflows 的「原型-固化」双阶段范式,则为 Agent 工程提供了一条从探索到生产的清晰路径。
对于产品经理和决策者,这意味着评估 AI 方案的标准需要升级。不要再问「这个方案用了 GPT 5.6 还是 Claude Opus」,而要问:「不确定性被隔离在哪里?一次 forward 完成多少工作?经验如何被复用?上下文在什么粒度加载?token 以什么方式生成?工作流如何从探索走向生产?」这六个问题,将决定你的产品能否在 2026 年的 Agent 生态中生存和扩展。
Token IO 架构的设计游戏,才刚刚开始。

此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。