惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
人人都是产品经理
人人都是产品经理
Cisco Talos Blog
Cisco Talos Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
V
V2EX
博客园 - 三生石上(FineUI控件)
Martin Fowler
Martin Fowler
WordPress大学
WordPress大学
D
Docker
S
SegmentFault 最新的问题
博客园 - 聂微东
美团技术团队
Apple Machine Learning Research
Apple Machine Learning Research
月光博客
月光博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Last Week in AI
Last Week in AI
M
MIT News - Artificial intelligence
F
Fortinet All Blogs
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
The GitHub Blog
The GitHub Blog
GbyAI
GbyAI
L
LangChain Blog
Vercel News
Vercel News
博客园 - 叶小钗
MongoDB | Blog
MongoDB | Blog
Stack Overflow Blog
Stack Overflow Blog
H
Help Net Security
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
The Cloudflare Blog
Engineering at Meta
Engineering at Meta
T
Threat Research - Cisco Blogs
T
Threatpost
Scott Helme
Scott Helme
T
Tailwind CSS Blog
Latest news
Latest news
Stack Overflow Blog
Stack Overflow Blog
Blog — PlanetScale
Blog — PlanetScale
The Register - Security
The Register - Security
罗磊的独立博客
P
Proofpoint News Feed
腾讯CDC
S
Schneier on Security
雷峰网
雷峰网
A
About on SuperTechFans
T
Tenable Blog
F
Full Disclosure
Cyberwarzone
Cyberwarzone
博客园_首页
有赞技术团队
有赞技术团队
K
Kaspersky official blog

量子位

AI原生时代下,让世界适应Agent,而非教AI做人 | 港大黄超@AIGC2026 从Token无上限到全员Agent:MiniMax的AI Native组织进化实践 帮Gemini拿下IMO金牌的关键先生,差点成了职业钢琴家 英伟达清华团队提出Gamma-World:世界模型从「一个人玩」到「多人共处」 英伟达清华团队提出Gamma-World:世界模型从「一个人玩」到「多人共处」 4nm!比亚迪自研AI芯片来了:制程对齐英伟达,算力拉爆特斯拉 光帆科技与腾讯出行服务达成战略合作 开启新一轮预售 PPIO入选非凡产研「2026 Global AI 100」,以AI实力领跑出海新浪潮 面壁智能「开源周」:一场定义端侧 AI 终局的系统性「亮剑」 5亿Tokens白送!全球首个商用AI主机发布,终于能放开烧Token了 下限零基础,上限肝大作!腾讯这个AI游戏创作平台,太野了 创意设计版WorkBuddy来了!腾讯发布智能体创意工作室Miora 刚刚,全球⾸个“事件级预测”具身智能世界模型来了! 清华系团队给大模型织了一张“智能算力电网” Claude 4.8炸场!部分能力超过Mythos,支持数百子智能体并行 DeepSeek V4芯模协同背后,国产算力生态开始飞轮加速 世界模型接棒语言模型,这家公司全球首创物理AGI“双金字塔”体系,通用机器人进入“家庭时代” 沙钢签约钉钉,让悟空成为每一位“钢铁人”的生产力工具 5篇AI生成的数学论文被接收!00后创始人洪乐潼融资14个亿 7B打败o3、GPT-5!医学AI智能体让模型学会“看哪里、怎么看” AI正在重写软件行业?8岁孩子做操作系统,一人公司拿下千万订单 「斯隆奖」得主戴亮全职加盟复旦 清华有了新老师:黄仁勋 雷鸟双品齐发:GT 系列、V4 同台亮相,次世代 AI 眼镜雷鸟 iO 提前预告 1400亿Agent入场,“流量”这条护城河要塌了 5秒完成3D场景编辑,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了 OpenAI挖来了个F1级别车手搞公关 触觉具身来了个梦之队:天使轮近亿 Codex自我蒸馏玩法火了!OpenAI员工亲授:复制粘贴就能让AI消灭重复劳动 DeepSeek陈德里开发自动研究Skill,写一篇论文人类只动脑2小时 将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式 刚刚,国产AI自己造了AI,全球首例! 留给人类数学家的悬赏不多了!谷歌DeepMind一口气解决9道埃尔德什问题 卡帕西Anthropic最新头衔:技术员工(MTS) 华为发布AI DC数据基础设施全栈方案,加速行业智能化跃升 荣耀600系列手机发布:4K闪光微单Live,国补价2294.15元起 “卡车界特斯拉”,刚刚又融了2亿美元 编程权威榜单:千问3.7仅次于Claude,阿里全球第二 刚刚,国产Agent模型闯入全球第一梯队!限时免费 京东JoyInside戴文军:AI的终极形态不是聊天,是融入你家每一件物品丨AIGC2026 无人车遇水则瘫?Waymo大规模召回,叫停多城Robotaxi服务 打造创投生态的超级枢纽, 2026投资界SuperLink大会定档6月 “VLA和世界模型都不是终局,会有物理世界独有的模型” | 蚂蚁灵波沈宇军@AIGC2026 蚂蚁灵波LingBot-VA论文被机器人顶会RSS 2026接收,让机器人边推演、边行动 DeepSeek V4还能更省!新工具缓存命中率高达99.82%,2折稳定到手 图灵奖得主领衔,中国大模型第一梯队集结!2026智源大会,看懂AI下一程 Claude 通过率不到4%,SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想 华为具身大脑一号位创业,用认知科学造世界模型,获亿元级融资 未来推理将吃掉70%算力,30%留给训练丨硅谷投资人张璐@AIGC2026 卷到今天,Agent的含金量还在提升丨AIGC2026圆桌论坛 谷歌CEO承认Coding落后了 未来推理将吃掉70%算力,30%留给训练丨硅谷投资人张璐@AIGC2026 什么!你说胡彦斌也在苦修Vibe Coding “五类人AI替代不了,企业做第二名最稳妥” | 昆仑万维方汉@AIGC2026 OpenAI大神教你如何榨干Codex DeepSeek V4价格打骨折,宁王京东网易抢着入场,梁文锋:目标是AGI 美团外卖前负责人入局餐饮具身模型,元节智能获千万级种子轮融资 美团外卖前负责人入局餐饮具身模型,元节智能获千万级种子轮融资 龙虾养不动了?周鸿祎给虾搭了个云端办公室,专业私教在线炼虾 李飞飞再出手,空间智能的ImageNet来了 融资700亿!DeepSeek Code真要来了,ACM金牌大神崔添翼挂帅 狂揽F轮融资+拿下4100万用户!深圳玩家出手,把企业旧系统变成AI能力库 顶流里最快!智谱,你是在「喷」代码吧 80集短剧,3天拍完:当电影人下场做Agent,影视生产迎来了“最懂行”的解法 39万!雷军发布小米最贵SUV 联想集团Q4营收利润双创新高,兑现历史最佳财年 腾讯混元开源全新翻译模型Hy-MT2 ,上线小程序「腾讯Hy翻译」 菲尔兹奖得主都看懵了:OpenAI非数学模型首次自主突破80年未解数学难题 风行在线CEO易正朝:先全员Coding,再All in众创丨AIGC2026 Artificial Analysis放榜:千问3.7问鼎国产模型冠军,全球前五 AI首次实现中国风光发电普查,北大、阿里达摩院研究登上《自然》 上海交大AI教授亲授:半天带你拆解Agent底层逻辑 得场景者得AI天下,出行赛道跑出了一家值得关注的数据玩家 520当天400万AI人,都在量子位听这近20场演讲&对谈|第四届中国AIGC产业峰会 顺丰邮政仓库干活的机器人,顺手拿了个具身高考第一 刚刚,马斯克公开SpaceX招股书! 智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速 太初元碁洪源:异构计算能力将成为未来AI算力基础设施的重要方向|AIGC2026 VC、品牌顾问、编剧,正在批量把自己做成AI AIDC建设正从“通用标准”走向“适用高效” 破壁行动!把大厂级“研发外挂”发给每一个创新者,智会心研PLUS版免费公测 海信激光电视探索X1 Pro发布:中国家庭,正式进入客厅影院时代 2026中国AIGC最值得关注的企业&产品图鉴来了!谁在造浪,谁在落地? 趋境科技完成数亿元Pre-A轮融资,高品质AI Token生产基础设施 苏姿丰上海开讲:AI正在重新定义计算的每一层 完成“由铁到钢”的生态蜕变 刘军携联想全场景AI终端点亮智能未来 抢先李飞飞!世界模型能多人联机玩FPS游戏了 国产GPU开始造世界!国内首个全栈具身智能仿真平台来了 Cursor新模型,你怎么还在套Kimi?马斯克你怎么还吆喝上了?? L2++「五冠王」文远知行:自动驾驶版的张雪机车,专治各种不服 5.20 明天见!拿好这份参会指南|AIGC2026峰会 Qwen最新3.7 Max预览版空降!两代超大杯并行迭代,林俊旸走了但还在加速 百度无人车新纪录:周订单破35万!李彦宏:开始单城盈利了 重塑主流PC,第三代英特尔酷睿开启全民AI轻薄本时代 AI水论文封一年,署名连坐!arXiv最严新规来了,陶哲轩附议 openJiuwen社区开源新招:重磅发布JiuwenSwarm,拉开群体智能“养蜂”序幕 华为“养”出半个具身智能创业圈 上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代 8B模型做生物实验:实验步骤顺序不乱、剂量无幻觉|ICLR 2026 信通院&清华提出FedRE:用「纠缠」搞定联邦学习三难困境 | CVPR 26
τ0-WM:最大规模预训练的开源具身世界模型来了
衡宇 · 2026-05-31 · via 量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-05-31 15:38:43 来源:量子位

17800小时的真机数据

henry 发自 凹非寺

量子位 | 公众号 QbitAI

具身智能火了快两年,现在,终于有团队富裕到拿真机数据去砸预训练了。

而且一砸,就是17800小时

这是啥概念?差不多相当于一台机器人,连续两年、一天24小时不停地被人类遥操作。

当所有人都以为真机数据是奢侈品,难以scaling,只能放在最后的微调阶段时。

刚刚,上海创智学院副教授、智元机器人首席科学家罗剑岚带队,发布全球最大规模的开源预训练具身世界模型——

τ0-World Model(τ0-WM)

整个τ0-WM参数量达到5B,预训练数据规模高达约3万小时。其中,真机遥操作数据第一次成了绝对主力,占到了1.78万小时。

而3万小时的预训练数据,是目前全球开源预训练具身世界模型中最大的。

τ0-WM不仅能像其他世界模型那样预测未来画面、生成动作。

更重要的是,它还结合了测试时计算(Test-Time Computation),让机器人在执行前对多个候选动作进行排序,选出最优方案,质量不够就调用模拟器修正后再执行。

基于这套方法;τ0-WM在四个长程精细操作任务,包括Toolbox(工具收纳)、School Bag(书包装物)、Badminton(羽毛球装盒)和Faucet(水管接头对接)的平均成功率超过了对标π0.5和Fast-WAM。

可以说,罗剑岚团队此前在后训练方面的持续投入,不仅攒出了足够规模的真机数据,也攒出了把这些数据用于大规模预训练的经验。

预训练和后训练这两条线,终于对齐了。

提议、模拟、评估,然后行动

过去几年,驱动机器人实现感知与控制的主流范式,大多是一种反应式的端到端策略:

神经网络看到画面,立刻输出动作。

这种类似于人类“条件反射”的方式,在抓取、放置等标准任务里已经非常成功。

但就像人类其实并不完全依赖肌肉记忆一样,机器人在面对接触密集、长程跨度、或者存在严重遮挡的复杂操作时,单纯依靠“看见场景就输出动作”的方式,也很容易导致不可逆的错误。

很多时候,一步错,后面可能就全错了。

所以,和许多世界模型方法一样,τ0-WM选择让机器人在行动之前,先在脑子里“想象”一下:

如果自己执行了这个动作,未来会发生什么,环境会怎么变化。

但τ0-WM特别的地方在于,它不只“想一次”。

为了让机器人能够三思而后行,研究引入了Test-Time Computation(测试时计算),让机器人在真正执行前,可以多花一点时间,在内部“虚拟沙盘”里并行想象很多次,反复比较,甚至主动纠错。

也就是说,τ0-WM让机器人不再只是看到画面就立刻出手,而是像人一样,先在脑子里盘一遍哪种路线更靠谱,再决定真正怎么做。

某种程度上,这其实是在让机器人学会一种“慢思考”。

具体来说,τ0-WM的在线推理,分成三步。

第一步,提议。

首先,视频动作模型(VAM)会根据当前多视角观测、语言指令以及机器人状态,一次性采样出多组候选动作,同时生成对应的模糊未来画面。

这相当于机器人先在脑子里快速闪过几种可能的做法。

第二步,推演。

其次,动作条件视频模拟器会针对每组候选动作,进一步生成对应的多视角未来画面。

之所以是多视角,是因为真实机器人操作里,正面视角经常会被机械臂或物体挡住,所以模型必须还能“脑补”侧面、顶部等其他视角下的未来状态,才能真正判断动作后果。

第三步,评估与修正。

最后,系统会先用RCS(Re-denoising Consistency Score)给动作打分:把候选动作重新加噪,再丢回模型重新去噪,观察重建误差。

误差越小,说明这个动作越接近模型训练时学到的高质量动作分布,也越靠谱。

但如果最优动作的分数依然不够高,就会触发第二层机制LAR(Low-quality Action Rectification)。

系统会把所有候选动作送进视频模拟器,预测对应未来状态以及任务进度,挑出“任务推进效果最好”的未来画面,再让VAM基于这个“最优未来”重新生成动作。

最终,模型基于这三步走,输出最好的动作。

值得一提的是,虽然很多世界模型在训练时也会预测未来,但部署时为了推理速度,往往会把未来预测模块直接去掉。

τ0-WM则坚持在推理阶段保留“显式未来想象”,并把这些未来画面真正用于后续动作的打分、筛选与修正。

也就是说,对τ0-WM而言,“想象未来”不是训练技巧,而是机器人做决策的一部分。

在这三阶段pipeline背后,τ0-WM主要由两个共享视频扩散backbone组件驱动:

负责“提议动作”的VAM,以及负责“沙盘推演”的动作条件视频模拟器。

前者基于Wan2.2-5B视频生成模型,同时输出未来视频latent和动作chunk;后者则专门负责评估未来状态和任务进度。

而在训练阶段,三类不同来源的数据,也通过modality-specific supervision masks被统一揉进了同一个体系:

有动作标签的数据,同时训练视频与动作;没有动作标签的数据,则只训练视频分支。

3万小时预训练数据

接下来,就到了τ0-WM这次最夸张、也最“重资产”的部分:训练数据

这近3万小时的预训练数据,不只刷新了开源具身世界模型的规模纪录,更重要的是,它正在打破行业对具身智能数据金字塔的固有认知。

整个τ0-WM的训练数据,主要由三部分组成,而且每一类数据的角色都不一样。

第一类,是真机遥操作数据,总量17800小时。

这部分数据来自双臂机器人、多视角采集,而且动作空间和真实部署环境完全对齐。

某种程度上,它也是整个数据体系里“最贵”的部分。

因为真机采集不仅慢,还特别吃人力和硬件资源。但与此同时,它也是质量最高的数据。

这批数据提供了最核心的动作监督信号,可以说是τ0-WM敢做大规模预训练的真正根基。

第二类,是6500小时的UMI数据

简单来说,UMI(Universal Manipulation Interface)是一种不依赖特定机器人平台的数据采集方式。

相比真机遥操作,它覆盖的物体种类和操作场景会丰富很多。但问题也很明显,它的动作空间,并不完全等同于真实机器人部署时的动作空间。

所以在τ0-WM中,UMI数据更像是在补“行为多样性”。

它不一定最精准,但能让模型见过更多操作方式、更多物体、更多长尾场景。

第三类,则是3000小时的人类第一视角EgoCentric数据

这部分数据的采集成本最低,但覆盖范围却最大。

里面会包含大量长尾交互行为,以及很多机器人暂时很难专门采集到的真实场景。

不过,它有一个问题:没有机器人动作标签。

也就是说,模型只能“看”,不能直接学“机器人该怎么动”。因此,这部分数据只参与视频分支训练,不参与动作预测。

它更像是在帮助模型学习:物体会怎么运动,人与环境会怎么交互,场景状态会如何变化。

看到这里,其实会冒出一个很自然的问题:

既然人类视频没有动作标签,UMI的数据格式又和真机动作空间不完全一致,那模型到底怎么把它们一起训进去?

τ0-WM这里用了一个很巧的设计——Modality-specific supervision masks(模态特定监督掩码)。

简单来说,对于有动作标签的数据,就同时训练视频和动作,没有动作标签的数据,就把动作部分mask掉,只训练视觉分支。

这样一来,不同来源、不同模态、不同动作空间的数据,就第一次被真正揉进了同一个预训练体系里。

实验结论

在实验部分,团队最核心想验证的一件事,其实就是:

Test-Time Computation(测试时计算),到底有没有用。

抽纸巾放进盒子捡笔放进盒子两个任务上,这两个任务在3万小时预训练数据中从未出现过,属于模型完全没见过的新任务。

研究采用了比常规做法更严格的评测标准,不允许重试,单次机会,20轮取平均。

结果表明,不加测试时计算时,裸策略平均成功率只有43%。加入第一层RCS动作筛选后,提升到50%。

再叠加LAR模拟器修正之后,最终来到60%。提升最明显的是更难的Pen→Box任务,成功率直接从30%拉到了50%。

此外,研究还专门对比了其他测试时引导方法。同样条件下,Classifier-Free Guidance(CFG)成功率只有20%,Action Coherence Guidance(ACG)为38%,τ0-WM则达到60%。

这里最关键的区别就来自之前提到的,CFG和ACG,本质上还是在检查“动作本身是否连贯”。

而τ0-WM评估的,则是:

“这个动作做完之后,未来世界会变成什么样,任务有没有真的往前推进。”

也就是说,前者关注的是动作空间内部的一致性。

而后者,开始真正把“未来后果”纳入了决策。

(其余实验细节可参考论文)

数据金字塔,要变样了

如果放到整个具身智能行业的数据路线里看,τ0-WM这次真正特别的地方,其实会更明显。

过去,具身行业的数据体系一直像一个很典型的金字塔。

最底层,是互联网视频数据。

规模最大、最便宜,但没有机器人动作标签,只能让模型学一些通用视觉和世界变化规律。

再往上一层,是仿真数据。

机器人终于开始“动起来”了,但问题在于,仿真和真实物理世界之间,始终隔着一道巨大的sim2real gap。

而金字塔最顶层,则是真机遥操作数据。质量最高,动作空间和真实部署完全一致,但行业过去的普遍认知一直是:

太贵、太少、根本不可能scale。

所以大多数团队,都会把真机数据留到最后微调阶段再用。

但今年,一个新的变化开始出现了,Ego-Centric第一视角数据突然崛起。

大家开始意识到,人类第一视角视频虽然没有机器人动作标签,但它天然包含了大量真实世界里的交互过程、物体变化和长尾操作。

于是整个行业,开始集体all in Ego数据。

某种程度上,Ego-Centric正在变成数据金字塔里的“新中层”,比互联网视频更接近真实交互,又比真机数据便宜得多。

但问题是,绝大多数团队做到这里,其实就停下来了,因为大家仍然默认真机数据依然贵到不可能成为预训练主体。

但τ0-WM第一次把这个逻辑反过来了。

他们一边引入Ego-Centric数据,一边直接用17800小时真机遥操作数据给预训练打底。

这件事也不是突然发生的。

回看罗剑岚团队过去一年多的工作,会发现一条非常清晰的主线,他们搭的不是单点模型,而是一整套真实世界数据飞轮。

2026年1月,SOP搭起了规模化的真机数据采集和回流基础设施。

2026年4月,LWD把大规模强化学习引入具身VLA的后训练,构建了部署即训练的数据飞轮,机器人跑得越多,回流数据越多,模型越强,又能跑更多任务。失败轨迹也第一次被系统性纳入学习。

而当真机交互数据积累跨过某个临界点之后,一件以前没人敢想的事,就自然发生了:

真机数据终于开始从“后训练耗材”,变成“预训练燃料”。

直到这里,具身智能里的“预训练—真机部署—数据回流—再预训练”这条链路,才第一次真正开始跑通。

项目网站:
https://finch.agibot.com/research/tau0-wm
项目github:
https://github.com/sii-research/tau-0-wm
模型huggingface:
https://huggingface.co/sii-research/tau-0-wm

版权所有,未经授权不得以任何形式转载及使用,违者必究。