惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

博客园_首页
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
量子位
博客园 - Franky
罗磊的独立博客
月光博客
月光博客
酷 壳 – CoolShell
酷 壳 – CoolShell
博客园 - 聂微东
人人都是产品经理
人人都是产品经理
Hugging Face - Blog
Hugging Face - Blog
宝玉的分享
宝玉的分享
腾讯CDC
D
Docker
N
Netflix TechBlog - Medium
Y
Y Combinator Blog
V
V2EX
Microsoft Azure Blog
Microsoft Azure Blog
Latest news
Latest news
C
CERT Recently Published Vulnerability Notes
G
GRAHAM CLULEY
C
Cisco Blogs
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
T
Threatpost
Simon Willison's Weblog
Simon Willison's Weblog
GbyAI
GbyAI
S
SegmentFault 最新的问题
Blog — PlanetScale
Blog — PlanetScale
L
Lohrmann on Cybersecurity
I
Intezer
博客园 - 叶小钗
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Last Week in AI
Last Week in AI
Cisco Talos Blog
Cisco Talos Blog
Hacker News: Ask HN
Hacker News: Ask HN
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
B
Blog
Microsoft Security Blog
Microsoft Security Blog
AI
AI
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
S
Schneier on Security
V
Visual Studio Blog
The Register - Security
The Register - Security
AWS News Blog
AWS News Blog
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
F
Fortinet All Blogs
博客园 - 司徒正美
WordPress大学
WordPress大学
Jina AI
Jina AI
T
Tor Project blog

量子位

AI自主监测宠物健康,陪狗都不用自己来了!涂鸦Hey Tuya打造全屋智能“超级入口” 燃油SUV车主熬出头了!华为乾崑智驾加持,全新奥迪Q5L率先实现智能化 华人再破硅谷天花板!AI黑马新任CTO,中科大80后 0博士组合拿下ICLR时间检验奖!两个GPT天才本科生+二本逆袭LeCun弟子,十年论文终封神 DeepSeek V4报告太详尽了!484天换代之路全公开 优必选发布Thinker cosmos:加码开发者生态,推动人形机器人走向规模化 DeepSeek-V4发布,华为云首发适配 Mobileye 2026财年一季度营收增长27%,自动驾驶商业化进程持续推进 100%主流车企的共同选择:一个AI“通用底座”正在汽车行业成型 真有人做AI小猫啊?!生产力和情绪价值都拉满了 Coordination Engineering关键一环,JiuwenClaw再发布Team Skills技能新范式 DeepSeek V4终于发布!打破最强闭源垄断,明确携手华为芯片 荣耀WIN游戏本等多款新品正式发布,荣耀PC家族全面爆发 刚刚,GPT-5.5发布!内测英伟达工程师:失去它像被截肢 河南师傅,左手扳手,右手飞书,竟然能搞数据分析! 国内首家百亿估值纯推理GPU独角兽诞生!专访曦望联席CEO王湛:谁的推理成本更低谁就是赢家 印奇站上AI+车浪潮之巅:7个月,千里科技和华为「五五开」 飞书项目开放平台焕新升级,全面迈向“AI Friendly” 半壁华人!GPT Image 2团队曝光:无锡才俊带队,13人4个月封神 Nature封面:机器人乒乓球干翻人类职业选手 特斯拉开源硬件,中国公司回应来了:直接把机器人大脑开源了 挖漏洞何必Mythos,国产智能体早跑通了 “不造车的特斯拉”亮出“舱驾一体”全家桶,汽车长出“主动理解力”,奇瑞比亚迪等10+巨头力挺 科大讯飞发布燎原N30m笔记本,重塑全栈国产AIPC新标杆 神秘模型「大象」:仅100B拿下SOTA,Token效率超高! 香港科创标杆奖项!商汤首席科学家林达华荣获中银香港科创奖 国产多模态Agent拿下医学分割SOTA!不用改模型、不加token 这些人读个博一年能挣几十万?2026苹果学者名单公布了 大厂AI抢人大战,从实习生开始 全球首个世界统一模型发布,机器人家庭成员来了! 从GPU到Token:AI基础设施竞争逻辑重构 2026萤石品牌新品发布会:驭智向前锚定长期主义,AI驱动多点开花 6分钟满电续航1500公里!宁王一夜终结加油时代 单Agent时代结束,AI们开始组团上班 前小鹏汽车自动驾驶一号位李力耘出任众擎CTO,加速打造具身大脑 5月20日,马上AI起来!中国AIGC产业峰会报名已启动|首波嘉宾官宣 物理优先+VLA闭环进化:高德ABot-World世界模型,破解具身智能零样本泛化难题 ISC.AI 2026创新独角兽沙盒大赛在京启动 聚焦智能体 共筑AI创新生态 都让让!赛博女娲蒸馏一切,让乔布斯马斯克集体给你打工 把人类驾驶员赶出机场,复旦大牛校友要港股IPO了 小米宣布上线PC版龙虾,Xiaomi miclaw正式开启PC、Mac、有屏音箱多终端封测 Agent正杀入软件研发一线!全球超60位技术专家拆解AI落地困局,2026奇点智能技术大会收官 Kimi新论文:把KVCache玩成新商业模式了 横扫全球15项SOTA!高德首个面向AGI的全栈具身技术体系大公开 大模型架构的下半场 高德发布全球首个面向AGI的全栈具身技术体系“ABot”:15项SOTA,构建持续进化的具身智能闭环 马斯克来抖音卖老干妈了?? 教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决 黄仁勋都被问毛了:顶级AI厂商在去CUDA?“你的前提就是错的” 王濛代言的方盒子19万开卖,头顶激光雷达,底盘能“预瞄”路况 AI开始接管实验室了!玻尔·跃迁实验室:试剂、设备、数据一个入口搞定,1800+设备即插即用 OpenClaw的风,已经吹进了奶茶圈 11.58万,全系Lidar+L4同源算法,广汽文远把城区NOA打成白菜价 4.55亿美金!中国具身智能最大单笔融资诞生,高瓴红杉联手押注具身大脑 谷歌最强具身大脑发布!波士顿机器狗瞬间人模人样 π0.7发布,VLA押出了机器人的GPT-3时刻 18家具身顶尖势力集结,RoboChallenge 打造全球最大具身模型竞技场 空间智能第一股,开盘暴涨171%!李飞飞押注的赛道,杭州六小龙之一跑通了 ImageNet作者苏昊回国任教复旦!李飞飞高徒,具身第一高引,出任通用物理AI院长 PPIO上线PPHermes:云端沙箱一键部署Hermes Agent 72天,从0到千万小时产能,这个具身「新锐派」凭什么接管数据赛道? 打造全球领先“具身智能超级供应链”,京东发布行业首个具身数据全链路基础设施 世界客商排队体验讯飞AI眼镜,科大讯飞把多语种AI能力带进广交会第一现场 刚刚,机器人练成了宁次的「白眼」:∞帧画面边看边3D重建我们的世界! 宁王飘了!日赚2.3亿,回应比亚迪“闪充”:跟我学的,构不成挑战 腾讯官宣升级AI小程序成长计划,所有小程序都能申请 扔掉你的Token账单吧,荣耀YOYO Claw技术把养虾成本打下来了 Claude实名认证引众怒!强制验证是为了更精准封号 短短3个月,高德已拿下具身智能领域15项世界第一 我用1分钟开发了个上线应用,有阿里Meoo谁还学编程啊 继HappyHorse后,阿里又有一款模型登顶权威评测榜单 具身智能为什么还没真正落地?问题卡在这|沙龙报名 炸奥特曼的人被扒出来了 全球首创16cm极致外扩超级机械臂,MOVA扫地机开启清洁新纪元 百度Create大会官宣三大核心看点,国内最大AI开发者嘉年华5月北京揭幕 北电数智发布星火·AI云2.0,以AI系统工程重塑产城发展范式 | 酒仙桥论坛 CAAI携手中国人民大学高瓴人工智能学院、英博数科启动高校学院算力支持计划 今年最火的AI产品,不止龙虾|榜单申报中 入职Meta的吴翼,清华叉院官网已撤其教职信息 智能座舱“大脑”No.1冲刺港股,身价630亿,小米理想小鹏背后的共同供应商 别养龙虾了,硅谷Agent新潮流是「爱马仕」 Claude强到不敢发的Mythos,被质疑用了字节Seed技术 有人把巴菲特芒格炼化成Agent,然后开源了… 「Claude Code之父」其实是野路子来的…… 养虾人看哭了!字节扣子2.5出生即满级,手机对话就能Vibe Coding HTML-in-Canvas引爆前端!AI时代互联网视觉效果完全不一样了 36.4万超声图文对!中国团队构建首个大规模超声专属数据集,让AI真正读懂临床诊断语义丨CVPR’26 Claude复活30年前传奇游戏,仅用一个周末 超越人手!中国第一家脑机接口独角兽,要把仿生手带给机器人 滴滴自动驾驶张博:聚焦安全和体验 推动自动驾驶全球化落地 奥特曼遭遇死亡威胁:凌晨家中被投燃烧瓶 中国具身模型狂揽全球第一!机器人的人类数据时代来了 刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA 阿里视频生成大模型Wan2.7登顶DesignArena榜单 紫荆智康发布“紫荆AI医院”线上虚拟诊室 击败PI!星动纪元登顶具身奥林匹克,狂揽三项全球冠军 实测刘翔pick的国产AI汽车,BBA老车主的豪华滤镜碎了 奔驰崩了,在华销量大跌27% LeCun点赞:国产开源模型占领硅谷,性价比超10倍 刷屏的SBTI,底层算法有点东西…
低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超
思邈 · 2026-06-15 · via 量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-06-15 13:43:15 来源:量子位

原来最强AI不是一个AI

允中 发自 凹非寺

量子位 | 公众号 QbitAI

这年头,AI圈最不缺的就是“得不到的白月光”。

就在大家一边对着Claude Fable 5望洋兴叹,一边盘算着高昂的调用成本时,有人已经悄悄把这桌“满汉全席”给掀了。

怎么掀的?一手精妙的“拼图游戏”。

AI网关OrcaRouter最近上线了一套可编程路由策略Routing DSL,多个模型同时答题,自动仲裁出最优解。

几个你现在就能调用的“常规模型”,给它来个组合编排,跑出来的综合胜率,直接掀翻了Fable 5的单体基准线。

Opus 4.8打不过Fable 5,GPT-5.5也单挑不过,但这两个拼一组,结果就反超了。

哪怕是不混编,同一个Opus 4.8自己跟自己组队,综合得分也能从58.5%拉到约65.5%,追平Fable 5。

换成几个更便宜的模型组队(Gemini+Kimi+DeepSeek),也只差Fable 5一个点,成本却低上一大截

我们直接看数据。

反直觉的结果:组合>任何单兵

一组测试(注:以下为示意性数据,用于说明趋势,非官方跑分),100道任务里评分了93道

组合面板(多模型并行+仲裁)的得分,普遍高于它的每一个成员模型:

这里划下重点:

  • 任意一个“组合面板”,都打过了它自己的每一个成员。Opus 4.8 + GPT-5.5(约67.5%)同时高于Opus单跑(约58.5%)和GPT-5.5单跑(约60%),拉开7~9个点;
  • 多个组合追平、甚至超过了Fable 5单跑(约65.5%);
  • 连“自我组合”(Opus×2,约65.5%)都能追平Fable 5;一组便宜模型(Gemini 3 Flash+Kimi K2.6+DeepSeek V4 Pro,约64.5%)也几乎贴脸——成本却低一大截

再把DSL按难度智能分流跑成完整端点,差距更为直观(同为示意数据):

很明显,赢的不是“更强的模型”,而是“更聪明的编排方式”

为什么“人多力量大”对模型也适用

道理和让三个工程师同时做题、再挑出最好的答案一样。

不同模型的知识盲区和犯错方式并不相同:

各自独立作答,错误是分散、不重叠的;

再用“裁判”或“投票”把对的挑出来,整体正确率自然会被抬上去。

模型间的分歧其实是信号

OrcaRouter做的,就是从这些分歧里挑出最优解,拼成满血输出。

怎么做到的:用最简单的配置,解最复杂的调度

OrcaRouter把这套编排逻辑交给你自己写。

规则用YAML,条件用Google的CEL表达式(安全沙箱、只读、微秒级求值),自上而下匹配,第一条命中即生效。

整条请求的处理路径是这样的:

按难度路由,长这样:

rules:
id: hard
when: difficulty > 0.8 # 难题 → 上顶配
use: { model: "anthropic/claude-opus-4-8", reasoning_effort: "high" }
id: easy
when: difficulty < 0.3 # 简单请求 → 走便宜模型
use: { model: "google/gemini-3-flash" }
default:
delegate: balanced

“满血复活”的关键一招,是parallel(并行扇出)+ arbiter(仲裁):

use:
parallel: # 2~5 个模型并行作答
- { model: "anthropic/claude-opus-4-8" }
- { model: "openai/gpt-5.5" }
- { model: "google/gemini-3.1-pro" }
arbiter:
strategy: best_of_n # 让一个"裁判模型"挑最优
model: "anthropic/claude-sonnet-4-6"

四种仲裁策略,对应四种“怎么定胜负”

担心组合也翻车?

再加一层置信度级联兜底:当响应触发patch_invalid(补丁打不上)、self_doubt(模型自我怀疑)等信号,自动改投更强的模型重试。

更省、更稳:用拓扑换智能

并行扇出意味着“每条腿都计费”,但账要这么算:

你只在难的那一小撮请求上才扇出,简单请求照样走便宜模型;

而一组便宜模型拼出的面板就能逼近Fable 5——用拓扑结构买智能,而不是用更高的单价买智能。

上手极简

入口在控制台:routing → create router → routing strategy → DSL。

配套自带lint校验、dry-run试跑、影子模式(只评估不生效,先看 A/B 差异和成本变化)、灰度放量(0~100%滑杆)和回滚审计——

改路由这种高危操作,被包了一层安全网,可以先零风险跑起来再放量。

需要说明的一点是:

按难度/任务的智能路由现已上线;

“多模型并行扇出+仲裁”的运行时目前处于灰度/预览阶段(计费链路逐步验证中),可先写好规则、用影子模式观察,开放后一键生效。

现在就去试:

文档:docs.orcarouter.ai/routing/routing-dsl
网站:www.orcarouter.ai (控制台routing→create router→routing strategy→DSL)

结语

当整个圈子都在为了下一个未知数倾注赌注时,一种更具确定性的工程范式正在悄然成型。

协作大于单兵,网络优于孤岛。

几个现成模型组合起来就能赢最强单体,胜负手已经不只是“你调用了谁”,“你怎么编排”的权重正在变大。

模型还会继续卷下去,下一个更强的迟早会来。

但当编排本身就能拉出几个点的性能增量,“怎么用”这件事,也许该和“用哪个”放在同一个优先级了。

(注:本文图表均为示意性数据,仅用于说明趋势,非官方跑分;多模型融合运行时目前处于灰度/预览阶段。)

版权所有,未经授权不得以任何形式转载及使用,违者必究。