惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

G
Google Developers Blog
S
Schneier on Security
Google Online Security Blog
Google Online Security Blog
S
Securelist
Security Latest
Security Latest
P
Palo Alto Networks Blog
G
GRAHAM CLULEY
P
Proofpoint News Feed
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Scott Helme
Scott Helme
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
N
News and Events Feed by Topic
K
Kaspersky official blog
Cloudbric
Cloudbric
PCI Perspectives
PCI Perspectives
AWS News Blog
AWS News Blog
A
Arctic Wolf
V
V2EX - 技术
P
Privacy & Cybersecurity Law Blog
T
Threatpost
W
WeLiveSecurity
C
CXSECURITY Database RSS Feed - CXSecurity.com
M
MIT News - Artificial intelligence
C
CERT Recently Published Vulnerability Notes
Engineering at Meta
Engineering at Meta
E
Exploit-DB.com RSS Feed
aimingoo的专栏
aimingoo的专栏
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
C
Cyber Attacks, Cyber Crime and Cyber Security
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
Recent Announcements
Recent Announcements
Blog — PlanetScale
Blog — PlanetScale
云风的 BLOG
云风的 BLOG
I
InfoQ
量子位
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Microsoft Azure Blog
Microsoft Azure Blog
T
Tenable Blog
C
Cisco Blogs
B
Blog
S
Security Archives - TechRepublic
Recorded Future
Recorded Future
Hacker News - Newest:
Hacker News - Newest: "LLM"
腾讯CDC
MongoDB | Blog
MongoDB | Blog
V
Visual Studio Blog
Recent Commits to openclaw:main
Recent Commits to openclaw:main
H
Heimdal Security Blog
T
Tailwind CSS Blog
NISL@THU
NISL@THU

量子位

AI自主监测宠物健康,陪狗都不用自己来了!涂鸦Hey Tuya打造全屋智能“超级入口” 燃油SUV车主熬出头了!华为乾崑智驾加持,全新奥迪Q5L率先实现智能化 华人再破硅谷天花板!AI黑马新任CTO,中科大80后 0博士组合拿下ICLR时间检验奖!两个GPT天才本科生+二本逆袭LeCun弟子,十年论文终封神 DeepSeek V4报告太详尽了!484天换代之路全公开 优必选发布Thinker cosmos:加码开发者生态,推动人形机器人走向规模化 DeepSeek-V4发布,华为云首发适配 Mobileye 2026财年一季度营收增长27%,自动驾驶商业化进程持续推进 100%主流车企的共同选择:一个AI“通用底座”正在汽车行业成型 真有人做AI小猫啊?!生产力和情绪价值都拉满了 Coordination Engineering关键一环,JiuwenClaw再发布Team Skills技能新范式 DeepSeek V4终于发布!打破最强闭源垄断,明确携手华为芯片 荣耀WIN游戏本等多款新品正式发布,荣耀PC家族全面爆发 刚刚,GPT-5.5发布!内测英伟达工程师:失去它像被截肢 河南师傅,左手扳手,右手飞书,竟然能搞数据分析! 国内首家百亿估值纯推理GPU独角兽诞生!专访曦望联席CEO王湛:谁的推理成本更低谁就是赢家 印奇站上AI+车浪潮之巅:7个月,千里科技和华为「五五开」 飞书项目开放平台焕新升级,全面迈向“AI Friendly” 半壁华人!GPT Image 2团队曝光:无锡才俊带队,13人4个月封神 Nature封面:机器人乒乓球干翻人类职业选手 特斯拉开源硬件,中国公司回应来了:直接把机器人大脑开源了 挖漏洞何必Mythos,国产智能体早跑通了 “不造车的特斯拉”亮出“舱驾一体”全家桶,汽车长出“主动理解力”,奇瑞比亚迪等10+巨头力挺 科大讯飞发布燎原N30m笔记本,重塑全栈国产AIPC新标杆 神秘模型「大象」:仅100B拿下SOTA,Token效率超高! 香港科创标杆奖项!商汤首席科学家林达华荣获中银香港科创奖 国产多模态Agent拿下医学分割SOTA!不用改模型、不加token 这些人读个博一年能挣几十万?2026苹果学者名单公布了 大厂AI抢人大战,从实习生开始 全球首个世界统一模型发布,机器人家庭成员来了! 从GPU到Token:AI基础设施竞争逻辑重构 2026萤石品牌新品发布会:驭智向前锚定长期主义,AI驱动多点开花 6分钟满电续航1500公里!宁王一夜终结加油时代 单Agent时代结束,AI们开始组团上班 前小鹏汽车自动驾驶一号位李力耘出任众擎CTO,加速打造具身大脑 5月20日,马上AI起来!中国AIGC产业峰会报名已启动|首波嘉宾官宣 物理优先+VLA闭环进化:高德ABot-World世界模型,破解具身智能零样本泛化难题 ISC.AI 2026创新独角兽沙盒大赛在京启动 聚焦智能体 共筑AI创新生态 都让让!赛博女娲蒸馏一切,让乔布斯马斯克集体给你打工 把人类驾驶员赶出机场,复旦大牛校友要港股IPO了 小米宣布上线PC版龙虾,Xiaomi miclaw正式开启PC、Mac、有屏音箱多终端封测 Agent正杀入软件研发一线!全球超60位技术专家拆解AI落地困局,2026奇点智能技术大会收官 Kimi新论文:把KVCache玩成新商业模式了 横扫全球15项SOTA!高德首个面向AGI的全栈具身技术体系大公开 大模型架构的下半场 高德发布全球首个面向AGI的全栈具身技术体系“ABot”:15项SOTA,构建持续进化的具身智能闭环 马斯克来抖音卖老干妈了?? 教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决 黄仁勋都被问毛了:顶级AI厂商在去CUDA?“你的前提就是错的” 王濛代言的方盒子19万开卖,头顶激光雷达,底盘能“预瞄”路况 AI开始接管实验室了!玻尔·跃迁实验室:试剂、设备、数据一个入口搞定,1800+设备即插即用 OpenClaw的风,已经吹进了奶茶圈 11.58万,全系Lidar+L4同源算法,广汽文远把城区NOA打成白菜价 4.55亿美金!中国具身智能最大单笔融资诞生,高瓴红杉联手押注具身大脑 谷歌最强具身大脑发布!波士顿机器狗瞬间人模人样 π0.7发布,VLA押出了机器人的GPT-3时刻 18家具身顶尖势力集结,RoboChallenge 打造全球最大具身模型竞技场 空间智能第一股,开盘暴涨171%!李飞飞押注的赛道,杭州六小龙之一跑通了 ImageNet作者苏昊回国任教复旦!李飞飞高徒,具身第一高引,出任通用物理AI院长 PPIO上线PPHermes:云端沙箱一键部署Hermes Agent 72天,从0到千万小时产能,这个具身「新锐派」凭什么接管数据赛道? 打造全球领先“具身智能超级供应链”,京东发布行业首个具身数据全链路基础设施 世界客商排队体验讯飞AI眼镜,科大讯飞把多语种AI能力带进广交会第一现场 刚刚,机器人练成了宁次的「白眼」:∞帧画面边看边3D重建我们的世界! 宁王飘了!日赚2.3亿,回应比亚迪“闪充”:跟我学的,构不成挑战 腾讯官宣升级AI小程序成长计划,所有小程序都能申请 扔掉你的Token账单吧,荣耀YOYO Claw技术把养虾成本打下来了 Claude实名认证引众怒!强制验证是为了更精准封号 短短3个月,高德已拿下具身智能领域15项世界第一 我用1分钟开发了个上线应用,有阿里Meoo谁还学编程啊 继HappyHorse后,阿里又有一款模型登顶权威评测榜单 具身智能为什么还没真正落地?问题卡在这|沙龙报名 炸奥特曼的人被扒出来了 全球首创16cm极致外扩超级机械臂,MOVA扫地机开启清洁新纪元 百度Create大会官宣三大核心看点,国内最大AI开发者嘉年华5月北京揭幕 北电数智发布星火·AI云2.0,以AI系统工程重塑产城发展范式 | 酒仙桥论坛 CAAI携手中国人民大学高瓴人工智能学院、英博数科启动高校学院算力支持计划 今年最火的AI产品,不止龙虾|榜单申报中 入职Meta的吴翼,清华叉院官网已撤其教职信息 智能座舱“大脑”No.1冲刺港股,身价630亿,小米理想小鹏背后的共同供应商 别养龙虾了,硅谷Agent新潮流是「爱马仕」 Claude强到不敢发的Mythos,被质疑用了字节Seed技术 有人把巴菲特芒格炼化成Agent,然后开源了… 「Claude Code之父」其实是野路子来的…… 养虾人看哭了!字节扣子2.5出生即满级,手机对话就能Vibe Coding HTML-in-Canvas引爆前端!AI时代互联网视觉效果完全不一样了 36.4万超声图文对!中国团队构建首个大规模超声专属数据集,让AI真正读懂临床诊断语义丨CVPR’26 Claude复活30年前传奇游戏,仅用一个周末 超越人手!中国第一家脑机接口独角兽,要把仿生手带给机器人 滴滴自动驾驶张博:聚焦安全和体验 推动自动驾驶全球化落地 奥特曼遭遇死亡威胁:凌晨家中被投燃烧瓶 中国具身模型狂揽全球第一!机器人的人类数据时代来了 刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA 阿里视频生成大模型Wan2.7登顶DesignArena榜单 紫荆智康发布“紫荆AI医院”线上虚拟诊室 击败PI!星动纪元登顶具身奥林匹克,狂揽三项全球冠军 实测刘翔pick的国产AI汽车,BBA老车主的豪华滤镜碎了 奔驰崩了,在华销量大跌27% LeCun点赞:国产开源模型占领硅谷,性价比超10倍 刷屏的SBTI,底层算法有点东西…
智源大会 | 天工AI重新定义世界模型,公布Matrix-Game 3.5 最新技术突破
量子位的朋友们 · 2026-06-15 · via 量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-06-15 11:24:30 来源:量子位

昆仑万维将持续深耕,步履不停

6月12日-13日,第8届智源大会在北京举行。本届大会吸引了2位图灵奖得主、8位院士、30位30岁以下青年科学家、40余位AI企业CEO及创始人等参会,围绕Agent、世界模型、具身智能、AI自进化与AI安全等前沿议题展开讨论。

其中世界模型成为本届大会最受关注的议题之一,来自具身智能、机器人控制、游戏引擎、物理AI基础设施等不同领域的研究者提出了各自的技术路线,共同探讨世界模型相关深度议题。

昆仑万维旗下Skywork首席科学家刘扬受邀出席6月13日的世界模型分论坛,发表演讲以及参与圆桌讨论。在演讲环节,他以《Matrix-Game:长时序记忆下的实时流式交互式世界模型》为主题,系统阐述了Matrix-Game的研发历程、最新进展,基于对世界模型的深度思考,他提出了“下一帧状态生成和动作生成应该进行联合训练”的全新框架。此外,他首次公布了 Matrix-Game 3.5 的核心技术突破。Matrix-Game 3.5 计划于2026年7月正式发布,团队也将在近期发布包含更多技术细节的报告。

1. 定义世界模型:从“预测下一帧”到“状态-动作联合生成”

当前,全球世界模型赛道呈现技术路线快速分化的格局。尽管路线各异,一个共识正在浮现:世界模型已从纯学术命题演进为机器人、仿真、游戏与通用AI底层能力的竞争。 在国内,昆仑万维的 Matrix-Game 是该赛道中起步最早、系统化程度最高的力量之一。

从技术落地来看,全球世界模型赛道的主流技术路线已逐渐清晰:先进行大规模双向DiT预训练,再通过Self-Forcing或Causal Forcing蒸馏为因果模型,配合KVCache实现流式推理,最终达到25FPS的实时交互水平,同时辅以记忆注入机制解决长时程一致性问题。

昆仑万维的Matrix-Game 2.0正是这一技术范式中首个开源的实现方案,而Matrix-Game 3.0则首次系统性地将记忆问题纳入开源解决方案。目前,Skywork的Matrix团队正全力推进从3.0到3.5的升级迭代,核心目标在于攻克世界模型长时序生成中的记忆瓶颈,并实现5B参数模型在720P分辨率下的实时生成能力。

基于长期的研究,刘扬指出,“世界模型”一词在业内的定义混乱程度远超普遍认知——视频生成、3D表征、交互式模拟器等不同方向的研究者所指并非同一对象。

他在演讲中提出了自己的理解框架:

理解当下状态:这超越纯视觉信息。一个真正的世界模型需要理解物体级别的物理属性——墙是否可穿越、水的温度等。纯视觉信号天然无法覆盖这些信息。

预测下一个状态:在充分理解当前状态的基础上,模型需对世界的后续演化做出推断。

将预测结果渲染呈现:使开发者和用户能够观测“下一帧”。

然而,团队的思考并未停留于此。Matrix Game的实际训练揭示了一个更关键的结论:状态的预测与动作的生成应当联合训练,而非分而治之。

当我们把下一帧状态的生成和动作的生成进行联合训练,发现无论对状态理解还是状态和动作的预测,都会带来显著的提升。

这意味着他眼中更完整的世界模型,是对状态与动作的联合理解与联合生成——而非单向的观测世界、预测下一帧。根据具体应用场景,模型可以侧重输出状态(用于交互模拟器)或侧重输出动作(用于机器人控制)。这一统一框架是Skywork团队对世界模型认知的核心升级。

2. Matrix-Game 1.0-3.5:以游戏为切口,通向通用交互世界

自研发之初,团队选择游戏作为世界模型训练与交互验证的切入点。他认为,游戏天然是世界模型的完美载体。给定视觉输入和当前状态,接受玩家动作指令,输出下一帧——这一循环与世界模型的核心任务同构。同时,游戏引擎能够在可控条件下生成高质量数据,并精确记录视觉画面与对应动作,这是自然界视频数据无法替代的。

自2024年下半年启动研发以来,Matrix Game在不到两年内完成了多次关键跨越:

2025年3月,发布Matrix-Game 1.0:成为最早公开的可交互世界模型之一。

2025年8月,发布Matrix-Game 2.0:业界首个实现分钟级实时长序列交互的世界模型,单卡B100、720P@25FPS,从概念验证走向工业可部署,业界首个开源方案。Matrix-Game 2.0获得了顶级学术团队的高度认可,DiT(Diffusion Transformer)作者、纽约大学助理教授谢赛宁团队基于Matrix-Game 2.0开源底座,发布了全球首个多人视频世界模型Solaris,充分彰显了Matrix-Game 2.0在基础模型领域的技术影响力与开源生态价值。

2026年3月,发布Matrix-Game 3.0:5B参数蒸馏模型实现720P@40FPS实时生成,补齐了世界模型公认的三大短板——记忆(记不住)、长时程(跑不久)、实时性(跑不动),跻身全球第一梯队。

Matrix Game-3.5:本次演讲首次系统披露3.5的核心技术突破。该版本的最大变化是从游戏场景向真实场景全面扩展,支持多风格动态切换与指令控制,并引入NPC交互能力。同时,本版本全新升级了长时记忆能力。

他用一句话概括了对未来的判断:“世界模型不应只是一个仿真器,而应是一个联合训练的统一模型——对状态与动作同时理解、同时生成,根据应用场景自由组合。”

3. 突破世界模型的数据瓶颈:构建无限数据引擎

刘扬在演讲中强调,数据是决定世界模型能力的下限。团队在实践中发现,传统数据采集方式存在三大痛点:人工采集成本高昂、实机采集耗时耗力、效率极低,无法满足大模型规模化需求。而世界模型需要全新的数据生成方式 —— 能够无限生成带物理因果关系的数据,实现全自动、高效率、低成本。

为此,Skywork团队构建了三条自动化数据生产管线,输出 Video + Pose + Action + Language 的高质量世界模型训练数据。截至目前,数据引擎已产出:

500万+ 高质量视频切片

1万+ 有效训练小时数

1200+ 覆盖游戏场景数

这一无限数据引擎的具体实现包括三个层面:

第一,基于Unreal Engine 5的自主探索管线。 团队在UE5中搭建常见游戏场景,部署RL Agent进行自由探索,在探索过程中实现毫秒级同步采集,完整记录视觉画面、动作状态及一系列相关语义信息。

第二,跨游戏自动化控制与探索管线。 覆盖《GTA V》《荒野大镖客2》《赛博朋克2077》等主流3A游戏,实现跨游戏的自动控制、自动探索、自动录制与自动标注。

第三,开放平台视频自动挖掘管线。 从开放平台自动获取游戏视频,通过VLM(视觉大模型)评分筛选高质量片段,自动完成镜头切分、过滤与结构化标注。

4. Matrix-Game 实践中的关键挑战与技术突破

本次演讲中花了大量篇幅阐述训练过程中遭遇的独特难题,这些细节在论文中通常不会呈现,也是最引发现场观众关注的部分,为业内对世界模型的训练提供了诸多实战经验参考。

挑战一:动作信号与视觉画面缺乏一一对应

大规模爬取游戏视频数据在理论上具有吸引力,但实际操作中发现:游戏画面向右上45度偏转,可能由鼠标、键盘或键鼠组合完成——同一视觉变化对应多种动作,模型学习时会陷入严重歧义。“爬数据本身并不能解决动作标注的问题。我们需要大量主动构建数据场景,明确告诉模型:在这种情况下,物理规则是什么。”

挑战二:模型理解动作指令,却不理解动作的物理后果

以《荒野大镖客》为例,模型很早就能理解“往前走”这一动作指令,但当游戏主角行至墙前,模型无法认知“墙不可穿越”,会直接生成穿墙画面。理解动作的含义与理解该动作在物理世界中产生的结果,是两项不同的任务。

为此,团队建立了一套主动数据标注体系,大量手工构建边界场景,将这些“昂贵但不可跳过”的物理知识注入训练数据。

挑战三:注入控制参数会破坏原始视频分布

从1.0到3.0版本,团队一直将动作控制信号作为额外参数注入模型(鼠标信号通过Self-Attention注入,键盘信号通过Cross-Attention注入)。这一直观做法带来了持续代价:每次加入参数都会破坏模型对原始视频分布的认知,需要大量额外训练来“修复”基础能力。

3.5版本对此做出了根本性改变:不再引入额外参数,转而采用PRoPE(Projective Position Encoding)机制,通过相机投影矩阵让模型直接感知相机相对位姿。这不仅降低了对原始视频分布的破坏,也极大增强了泛化能力。

挑战四:记忆检索方式决定长时程一致性的上限

早期版本的记忆机制是原样存储历史帧,推理时检索相关帧并拼接到上下文中。这一方法存在明显问题:占用大量上下文窗口、跨帧拼接时易出现画面冲突、难以灵活更新。

3.5版本进行了架构层面的升级:将历史帧切分为三维坐标系下的空间块(spatial tokens),检索时按空间位置匹配,再重组成当前视角的记忆图。这一设计带来三重优势:画面一致性更高、相机轨迹保持更稳定,以及记忆可随时更新、替换、删除,灵活性大幅提升。

刘扬展望道,Skywork团队的下一个目标是构建原生统一的世界模型框架——让状态理解与动作生成从串联走向联合,从分裂走向统一。以此为支点,团队将推动世界模型跨越游戏的边界,迈向机器人控制与物理世界交互的广阔疆域。他相信,世界模型终将成为通用人工智能的关键基石,重新定义智能体与物理世界的每一次交互。

在这条道路上,昆仑万维将持续深耕,步履不停。

版权所有,未经授权不得以任何形式转载及使用,违者必究。