低成本复刻Fable 5的路子找到了：OrcaRouter多模型组队，性能反超

量子位

AI自主监测宠物健康，陪狗都不用自己来了！涂鸦Hey Tuya打造全屋智能“超级入口” 燃油SUV车主熬出头了！华为乾崑智驾加持，全新奥迪Q5L率先实现智能化华人再破硅谷天花板！AI黑马新任CTO，中科大80后 0博士组合拿下ICLR时间检验奖！两个GPT天才本科生+二本逆袭LeCun弟子，十年论文终封神 DeepSeek V4报告太详尽了！484天换代之路全公开优必选发布Thinker cosmos：加码开发者生态，推动人形机器人走向规模化 DeepSeek-V4发布，华为云首发适配 Mobileye 2026财年一季度营收增长27%，自动驾驶商业化进程持续推进 100%主流车企的共同选择：一个AI“通用底座”正在汽车行业成型真有人做AI小猫啊？！生产力和情绪价值都拉满了 Coordination Engineering关键一环，JiuwenClaw再发布Team Skills技能新范式 DeepSeek V4终于发布！打破最强闭源垄断，明确携手华为芯片荣耀WIN游戏本等多款新品正式发布，荣耀PC家族全面爆发刚刚，GPT-5.5发布！内测英伟达工程师：失去它像被截肢河南师傅，左手扳手，右手飞书，竟然能搞数据分析！国内首家百亿估值纯推理GPU独角兽诞生！专访曦望联席CEO王湛：谁的推理成本更低谁就是赢家印奇站上AI+车浪潮之巅：7个月，千里科技和华为「五五开」飞书项目开放平台焕新升级，全面迈向“AI Friendly” 半壁华人！GPT Image 2团队曝光：无锡才俊带队，13人4个月封神 Nature封面：机器人乒乓球干翻人类职业选手特斯拉开源硬件，中国公司回应来了：直接把机器人大脑开源了挖漏洞何必Mythos，国产智能体早跑通了 “不造车的特斯拉”亮出“舱驾一体”全家桶，汽车长出“主动理解力”，奇瑞比亚迪等10+巨头力挺科大讯飞发布燎原N30m笔记本，重塑全栈国产AIPC新标杆神秘模型「大象」：仅100B拿下SOTA，Token效率超高！香港科创标杆奖项！商汤首席科学家林达华荣获中银香港科创奖国产多模态Agent拿下医学分割SOTA！不用改模型、不加token 这些人读个博一年能挣几十万？2026苹果学者名单公布了大厂AI抢人大战，从实习生开始全球首个世界统一模型发布，机器人家庭成员来了！从GPU到Token：AI基础设施竞争逻辑重构 2026萤石品牌新品发布会：驭智向前锚定长期主义，AI驱动多点开花 6分钟满电续航1500公里！宁王一夜终结加油时代单Agent时代结束，AI们开始组团上班前小鹏汽车自动驾驶一号位李力耘出任众擎CTO，加速打造具身大脑 5月20日，马上AI起来！中国AIGC产业峰会报名已启动｜首波嘉宾官宣物理优先+VLA闭环进化：高德ABot-World世界模型，破解具身智能零样本泛化难题 ISC.AI 2026创新独角兽沙盒大赛在京启动聚焦智能体共筑AI创新生态都让让！赛博女娲蒸馏一切，让乔布斯马斯克集体给你打工把人类驾驶员赶出机场，复旦大牛校友要港股IPO了小米宣布上线PC版龙虾，Xiaomi miclaw正式开启PC、Mac、有屏音箱多终端封测 Agent正杀入软件研发一线！全球超60位技术专家拆解AI落地困局，2026奇点智能技术大会收官 Kimi新论文：把KVCache玩成新商业模式了横扫全球15项SOTA！高德首个面向AGI的全栈具身技术体系大公开大模型架构的下半场高德发布全球首个面向AGI的全栈具身技术体系“ABot”：15项SOTA，构建持续进化的具身智能闭环马斯克来抖音卖老干妈了？？教龙虾玩手机！打通GUI智能体训练-评测-部署全流程，训练、真机、评测一站解决黄仁勋都被问毛了：顶级AI厂商在去CUDA？“你的前提就是错的” 王濛代言的方盒子19万开卖，头顶激光雷达，底盘能“预瞄”路况 AI开始接管实验室了！玻尔·跃迁实验室：试剂、设备、数据一个入口搞定，1800+设备即插即用 OpenClaw的风，已经吹进了奶茶圈 11.58万，全系Lidar+L4同源算法，广汽文远把城区NOA打成白菜价 4.55亿美金！中国具身智能最大单笔融资诞生，高瓴红杉联手押注具身大脑谷歌最强具身大脑发布！波士顿机器狗瞬间人模人样 π0.7发布，VLA押出了机器人的GPT-3时刻 18家具身顶尖势力集结，RoboChallenge 打造全球最大具身模型竞技场空间智能第一股，开盘暴涨171%！李飞飞押注的赛道，杭州六小龙之一跑通了 ImageNet作者苏昊回国任教复旦！李飞飞高徒，具身第一高引，出任通用物理AI院长 PPIO上线PPHermes：云端沙箱一键部署Hermes Agent 72天，从0到千万小时产能，这个具身「新锐派」凭什么接管数据赛道？打造全球领先“具身智能超级供应链”，京东发布行业首个具身数据全链路基础设施世界客商排队体验讯飞AI眼镜，科大讯飞把多语种AI能力带进广交会第一现场刚刚，机器人练成了宁次的「白眼」：∞帧画面边看边3D重建我们的世界！宁王飘了！日赚2.3亿，回应比亚迪“闪充”：跟我学的，构不成挑战腾讯官宣升级AI小程序成长计划，所有小程序都能申请扔掉你的Token账单吧，荣耀YOYO Claw技术把养虾成本打下来了 Claude实名认证引众怒！强制验证是为了更精准封号短短3个月，高德已拿下具身智能领域15项世界第一我用1分钟开发了个上线应用，有阿里Meoo谁还学编程啊继HappyHorse后，阿里又有一款模型登顶权威评测榜单具身智能为什么还没真正落地？问题卡在这｜沙龙报名炸奥特曼的人被扒出来了全球首创16cm极致外扩超级机械臂，MOVA扫地机开启清洁新纪元百度Create大会官宣三大核心看点，国内最大AI开发者嘉年华5月北京揭幕北电数智发布星火·AI云2.0，以AI系统工程重塑产城发展范式 | 酒仙桥论坛 CAAI携手中国人民大学高瓴人工智能学院、英博数科启动高校学院算力支持计划今年最火的AI产品，不止龙虾｜榜单申报中入职Meta的吴翼，清华叉院官网已撤其教职信息智能座舱“大脑”No.1冲刺港股，身价630亿，小米理想小鹏背后的共同供应商别养龙虾了，硅谷Agent新潮流是「爱马仕」 Claude强到不敢发的Mythos，被质疑用了字节Seed技术有人把巴菲特芒格炼化成Agent，然后开源了… 「Claude Code之父」其实是野路子来的…… 养虾人看哭了！字节扣子2.5出生即满级，手机对话就能Vibe Coding HTML-in-Canvas引爆前端！AI时代互联网视觉效果完全不一样了 36.4万超声图文对！中国团队构建首个大规模超声专属数据集，让AI真正读懂临床诊断语义丨CVPR’26 Claude复活30年前传奇游戏，仅用一个周末超越人手！中国第一家脑机接口独角兽，要把仿生手带给机器人滴滴自动驾驶张博：聚焦安全和体验推动自动驾驶全球化落地奥特曼遭遇死亡威胁：凌晨家中被投燃烧瓶中国具身模型狂揽全球第一！机器人的人类数据时代来了刘壮陈丹琦新作：开源通用视觉推理RL框架，0思考数据刷新SOTA 阿里视频生成大模型Wan2.7登顶DesignArena榜单紫荆智康发布“紫荆AI医院”线上虚拟诊室击败PI！星动纪元登顶具身奥林匹克，狂揽三项全球冠军实测刘翔pick的国产AI汽车，BBA老车主的豪华滤镜碎了奔驰崩了，在华销量大跌27% LeCun点赞：国产开源模型占领硅谷，性价比超10倍刷屏的SBTI，底层算法有点东西…

思邈 · 2026-06-15 · via 量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-06-15 13:43:15 来源：量子位

原来最强AI不是一个AI

允中发自凹非寺

量子位 | 公众号 QbitAI

这年头，AI圈最不缺的就是“得不到的白月光”。

就在大家一边对着Claude Fable 5望洋兴叹，一边盘算着高昂的调用成本时，有人已经悄悄把这桌“满汉全席”给掀了。

怎么掀的？一手精妙的“拼图游戏”。

AI网关OrcaRouter最近上线了一套可编程路由策略Routing DSL，多个模型同时答题，自动仲裁出最优解。

几个你现在就能调用的“常规模型”，给它来个组合编排，跑出来的综合胜率，直接掀翻了Fable 5的单体基准线。

Opus 4.8打不过Fable 5，GPT-5.5也单挑不过，但这两个拼一组，结果就反超了。

哪怕是不混编，同一个Opus 4.8自己跟自己组队，综合得分也能从58.5%拉到约65.5%，追平Fable 5。

换成几个更便宜的模型组队（Gemini+Kimi+DeepSeek），也只差Fable 5一个点，成本却低上一大截。

我们直接看数据。

反直觉的结果：组合>任何单兵

一组测试（注：以下为示意性数据，用于说明趋势，非官方跑分），100道任务里评分了93道。

组合面板（多模型并行+仲裁）的得分，普遍高于它的每一个成员模型：

这里划下重点：

任意一个“组合面板”，都打过了它自己的每一个成员。Opus 4.8 + GPT-5.5（约67.5%）同时高于Opus单跑（约58.5%）和GPT-5.5单跑（约60%），拉开7~9个点；
多个组合追平、甚至超过了Fable 5单跑（约65.5%）；
连“自我组合”（Opus×2，约65.5%）都能追平Fable 5；一组便宜模型（Gemini 3 Flash+Kimi K2.6+DeepSeek V4 Pro，约64.5%）也几乎贴脸——成本却低一大截。

再把DSL按难度智能分流跑成完整端点，差距更为直观（同为示意数据）：

很明显，赢的不是“更强的模型”，而是“更聪明的编排方式”。

为什么“人多力量大”对模型也适用

道理和让三个工程师同时做题、再挑出最好的答案一样。

不同模型的知识盲区和犯错方式并不相同：

各自独立作答，错误是分散、不重叠的；

再用“裁判”或“投票”把对的挑出来，整体正确率自然会被抬上去。

模型间的分歧其实是信号。

OrcaRouter做的，就是从这些分歧里挑出最优解，拼成满血输出。

怎么做到的：用最简单的配置，解最复杂的调度

OrcaRouter把这套编排逻辑交给你自己写。

规则用YAML，条件用Google的CEL表达式（安全沙箱、只读、微秒级求值），自上而下匹配，第一条命中即生效。

整条请求的处理路径是这样的：

按难度路由，长这样：

rules:
id: hard
when: difficulty > 0.8 # 难题 → 上顶配
use: { model: "anthropic/claude-opus-4-8", reasoning_effort: "high" }
id: easy
when: difficulty < 0.3 # 简单请求 → 走便宜模型
use: { model: "google/gemini-3-flash" }
default:
delegate: balanced

而“满血复活”的关键一招，是parallel（并行扇出）+ arbiter（仲裁）：

use:
parallel: # 2~5 个模型并行作答
- { model: "anthropic/claude-opus-4-8" }
- { model: "openai/gpt-5.5" }
- { model: "google/gemini-3.1-pro" }
arbiter:
strategy: best_of_n # 让一个"裁判模型"挑最优
model: "anthropic/claude-sonnet-4-6"

四种仲裁策略，对应四种“怎么定胜负”：

担心组合也翻车？

再加一层置信度级联兜底：当响应触发patch_invalid（补丁打不上）、self_doubt（模型自我怀疑）等信号，自动改投更强的模型重试。

更省、更稳：用拓扑换智能

并行扇出意味着“每条腿都计费”，但账要这么算：

你只在难的那一小撮请求上才扇出，简单请求照样走便宜模型；

而一组便宜模型拼出的面板就能逼近Fable 5——用拓扑结构买智能，而不是用更高的单价买智能。

上手极简

入口在控制台：routing → create router → routing strategy → DSL。

配套自带lint校验、dry-run试跑、影子模式（只评估不生效，先看 A/B 差异和成本变化）、灰度放量（0~100%滑杆）和回滚审计——

改路由这种高危操作，被包了一层安全网，可以先零风险跑起来再放量。

需要说明的一点是：

按难度/任务的智能路由现已上线；

“多模型并行扇出+仲裁”的运行时目前处于灰度/预览阶段（计费链路逐步验证中），可先写好规则、用影子模式观察，开放后一键生效。

现在就去试：

文档：docs.orcarouter.ai/routing/routing-dsl
网站：www.orcarouter.ai （控制台routing→create router→routing strategy→DSL）

结语

当整个圈子都在为了下一个未知数倾注赌注时，一种更具确定性的工程范式正在悄然成型。

协作大于单兵，网络优于孤岛。

几个现成模型组合起来就能赢最强单体，胜负手已经不只是“你调用了谁”，“你怎么编排”的权重正在变大。

模型还会继续卷下去，下一个更强的迟早会来。

但当编排本身就能拉出几个点的性能增量，“怎么用”这件事，也许该和“用哪个”放在同一个优先级了。

（注：本文图表均为示意性数据，仅用于说明趋势，非官方跑分；多模型融合运行时目前处于灰度/预览阶段。）

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

量子位

反直觉的结果：组合>任何单兵

为什么“人多力量大”对模型也适用

怎么做到的：用最简单的配置，解最复杂的调度

更省、更稳：用拓扑换智能

上手极简

结语