惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

博客园 - 司徒正美
雷峰网
雷峰网
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
大猫的无限游戏
大猫的无限游戏
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
爱范儿
爱范儿
V
V2EX
有赞技术团队
有赞技术团队
C
CXSECURITY Database RSS Feed - CXSecurity.com
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
The Hacker News
The Hacker News
WordPress大学
WordPress大学
T
Threat Research - Cisco Blogs
Scott Helme
Scott Helme
博客园 - Franky
T
Threatpost
TaoSecurity Blog
TaoSecurity Blog
V
Vulnerabilities – Threatpost
小众软件
小众软件
罗磊的独立博客
量子位
Attack and Defense Labs
Attack and Defense Labs
博客园 - 叶小钗
T
The Exploit Database - CXSecurity.com
Jina AI
Jina AI
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
L
Lohrmann on Cybersecurity
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
O
OpenAI News
S
Security @ Cisco Blogs
W
WeLiveSecurity
Help Net Security
Help Net Security
腾讯CDC
L
LINUX DO - 最新话题
酷 壳 – CoolShell
酷 壳 – CoolShell
Google Online Security Blog
Google Online Security Blog
SecWiki News
SecWiki News
月光博客
月光博客
Webroot Blog
Webroot Blog
Project Zero
Project Zero
V
Visual Studio Blog
A
Arctic Wolf
The Last Watchdog
The Last Watchdog
博客园 - 聂微东
www.infosecurity-magazine.com
www.infosecurity-magazine.com
J
Java Code Geeks
美团技术团队
S
SegmentFault 最新的问题
N
News and Events Feed by Topic

36氪

滨化股份港股上市获中国证监会备案-36氪 飞南资源:一季度净利润4.05亿元,同比增长7919.37%-36氪 A股三大指数集体收跌,全市场超3300股飘绿-36氪 阳光电源股份有限公司向港交所提交上市申请书-36氪 沪深两市成交额连续第222个交易日突破1万亿元-36氪 证监会部署打击和防范上市公司财务造假专项行动 天辰生物港股IPO获中国证监会备案-36氪 阿里云:4月30日10:00起,Qoder Teams版新购价格调整为300RMB/席位月-36氪 超捷股份:第一季度净利润1422.89万元,同比下降1%-36氪 外汇局:1-3月,中国外汇市场累计成交75.78万亿元人民币-36氪 当升科技:第一季度净利润2.77亿元,同比增长150%-36氪 最前线|AI收入破亿后的路径选择:微盟推行AI First战略与B端交付的挑战-36氪 洛阳钼业:第一季度净利润77.6亿元,同比增长96.65%-36氪 高德地图发布“AI 伴行”-36氪 赤峰黄金:第一季度净利润9.88亿元,同比增长104%-36氪 恒指收涨0.24%,恒生科技指数涨0.75%-36氪 中材科技:第一季度净利润5.07亿元,同比增长40.15%-36氪 东阿阿胶:第一季度净利润4.55亿元,同比增长7.14%-36氪 杭钢股份:第一季度净利润960.76万元,同比扭亏为盈-36氪 法国国民健康数据将从微软迁移至本土平台-36氪 歌尔股份:公司MEMS传感器产品在消费电子和汽车电子领域内均有较多应用场景-36氪 财政部:截至上周,消费品以旧换新带动销售额超5400亿元,惠及近7500万人次-36氪 财政部:一季度国债发行规模超3.62万亿元,投资者认购积极踊跃-36氪 DeepSeek V4发布,海光DCU完成Day0适配-36氪 财政部:一季度全国税收收入4.85万亿元,同比增长2.2%-36氪 财政部:股票市场交易活跃,一季度证券交易印花税增长78.1%-36氪 财政部:一季度全国一般公共预算收入6.16万亿元,同比增长2.4%-36氪 日本将从5月1日起释放第二批石油储备-36氪 天猫与长安汽车达成合作,正式入局整车销售-36氪 理想L9 Livis计划于5月15日正式上市,并开启交付-36氪 百度联盟正式发布海外App业务-36氪 挪威将禁止16岁以下儿童使用社交媒体-36氪 小马智行联合宁德时代首发L4级无人驾驶轻卡-36氪 日本将成立特别工作组应对金融体系网络安全风险-36氪 美股新高之际 高盛警告:美股近期可能下跌,切莫贸然加仓-36氪 有道龙虾已率先集成DeepSeek-V4和Kimi K2.6-36氪 PPIO首批上线DeepSeek-V4-36氪 特斯拉:赛博无人驾驶电动车Cybercab在北美投产-36氪 航油价格飙升令多家美国航空运营商业绩承压-36氪 国家能源局:3月核发绿证3.03亿个-36氪 每日互动DeepSeek-V4私部方案已就绪-36氪 沪深两市成交额连续第13个交易日突破2万亿-36氪 博硕科技:蓝海芯新材料已投入运营,当前营收规模较小-36氪 DeepSeek V4终于发布,但它留下的5道主观题还没有答案-36氪 起亚公司第一季度销售额29.5万亿韩元,高于市场预期-36氪 小鹏第二代VLA智驾报告首发,全系Ultra车型订单环比提升118%-36氪 北京君正:目前公司在研发LPDDR5-36氪 融了2000万美金,这家2000万美金ARR的AI公司,推出“视频版Photoshop”「Buzzy」 阶跃发布新一代自动语音识别模型StepAudio 2.5 ASR-36氪 NEC宣布与Anthropic达成网络安全合作-36氪 Keep发布9.0版本-36氪 李斌:汽车行业决赛期还有五年结束-36氪 电投贵安数据中心公司注册资本增至2.98亿元-36氪 半日主力资金加仓基础化工板块,抛售通信板块-36氪 海光C86全栈产品与解决方案亮相第87届教育装备展-36氪 茅台向经销商「要利润」-36氪 香港机场3月客运量同比增长19.6%-36氪 恒指午间休盘跌0.2%,恒生科技指数涨0.34%-36氪 英特尔CEO:半导体行业整体潜在市场规模已逼近1万亿美元-36氪 江苏省环保集团注册资本增至约63.6亿元 A股三大指数午间休盘集体下跌,贵金属板块领跌-36氪 英特尔CEO:所有业务板块需求仍高于供给,预计至强服务器CPU今明两年保持强劲增长势头-36氪 中国首款原生开发Robotaxi亮相北京车展,曹操出行定制版计划2027年量产-36氪 摩根士丹利:新兴市场股票远未进入新的长期牛市-36氪 Gartner:2025年阿里云中国市场份额32.8%,同比提升2.7个百分点-36氪 DeepSeek官网公布DeepSeek-v4接口文档-36氪 2026年大众汽车将在中国推出13款新能源车型-36氪 华尔街多家公司承诺提供60亿美元支持QXO收购TopBuild-36氪 现货白银向下跌破75美元/盎司-36氪 软银拟改造工厂为数据中心生产电池-36氪 蔚来在武汉成立新能源科技公司-36氪 万兴科技旗下万兴脑图上线“万兴脑图AI”-36氪 国家能源局:1-3月全国电力市场交易电量同比增长25.6%-36氪 菲律宾央行暗示将小幅加息以抑制通胀-36氪 可灵AI 3.0模型新增原生4K能力-36氪 用“活人感”做科技社区,小红书能成吗?-36氪 创业板指跌逾2%,AI硬件、软件领跌-36氪 天鹜科技发布对话式蛋白质研发智能体MatwingsVenus™-36氪 人工智能初创公司Cognition AI进行融资谈判,估值达250亿美元-36氪 恒生指数跌幅扩大至1%-36氪 OMV新西兰公司预计毛伊气田将于2026年停产-36氪 维塔流动近日完成数千万元Pre-Seed轮融资-36氪 亚马逊支持的X-Energy通过IPO募资10.2亿美元-36氪 千问加速上车,10多家车企同日宣布接入-36氪 天问三号任务计划于2031年前后携带火星样品返回地球-36氪 统筹推进商业航天标准化建设,商业航天标准体系(1.0版)发布-36氪 博裕、经纬、顺为等投资前新石器COO超亿元,押注AI超便携电子纸|硬氪独家-36氪 A股三大指数集体低开,新易盛跌超9%-36氪 央行今日开展50亿元7天逆回购操作-36氪 恒指开盘跌0.7%,恒生科技指数跌0.8%-36氪 人民币兑美元中间价报6.8674-36氪 小米汽车:新一代SU7已交付26000台-36氪 8点1氪丨华谊兄弟被申请破产重整;普华永道因恒大审计赔偿10亿港元;伊朗将恢复往返中国的航班-36氪 打造生物智能基础设施,AI4S企业「奥明星程」获超亿元A轮融资|36氪首发-36氪 美国百年太妃糖易手,Roca乐家被全资收购-36氪 破局“智驾双雄”,千里科技如何以AI之力重塑行业格局-36氪 氪星晚报|ThinkPad发布AI主机,可一键部署“龙虾”、较云主机三年总成本可节省48%;量化投资先驱马丁·卢克警告勿将交易决策全盘交予人工智能;国家知识产权局:2025年我国共授权发明专利97.2万件-36氪 创·问|炜璨医疗李强:从理解规则,到建立规则——重塑植入式给药路径-36氪 固态激光雷达“像素竞赛”加速,速腾聚创VGA大面阵SPAD-SoC产品发布|最前线-36氪 36氪官方AI专属社群,正式开放招募!-36氪
硬氪专访 | 智源研究院院长王仲远:VLA不会死,但世界模型是未来-36氪
邱晓芬 · 2026-06-15 · via 36氪

作者 | 邱晓芬

编辑 | 袁斯来

过去几个月,“世界模型”(World Model)从学术黑话迅速膨胀成AI和机器人行业里的关键词。

行业的目光转向背后是切实的焦虑。

一方面,经过了过去两年的野蛮生长,具身智能暴露了当前AI在物理世界中的短板——机器人能识别物体,却不懂“推杯子会掉”;能听懂指令,却无法预判“拧瓶盖需要多大的力”。世界模型正是试图补上这个短板,让机器人学会物理世界的规律、因果。

也就是说,世界模型与具身智能的关系,本质上是“大脑”与“身体”的关系。

另一面,大模型在经历了大语言、视觉模型、多模态的探索之后,需要从虚拟走向真实世界的下一阶段。

只是,当资本、技术专家、产业资源都倾注于此,世界模型到底如何上岸,人们没有答案。

在智源研究院院长王仲远看来,眼下全球围绕世界模型的探索,正被撕扯成四条截然不同的分岔路——

第一类是以语言为中心的世界模型,包括VLM、VLA,模型在文本空间中预测下一个词,学到的是语言描述的世界,并不能理解背后的物理后果;

第二类是以像素为中心的世界模型,像Sora和Seedance等视频生成类模型,在视觉空间中学习视频或图像,学到的是像素描述的世界;

第三类是以三维结构为中心的世界模型,包括3D重建以及李飞飞团队的World Labs Marble模型,不过模型重建3D空间不等于理解世界,几何结构也不代表物理状态;

第四类是以视觉表征为中心的世界模型,比如杨立昆的JEPA系列模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。

智源研究院院长王仲远(图源/企业)

作为一家非营利性科研机构北京智源人工智能研究院同样也是目前国内世界模型领域的中坚力量。

不同的是,智源研究院目前尝试的确是第五个分类——以语言和视觉为中心,融合进统一的「潜空间表征」所有模态被压缩进同一个潜空间(latent space)仲,再由不同的"解码器”(Decoder),按需还原成不同输出形态。

举个例子,这个“潜空间”就像给机器人大脑准备了一张“万能草稿纸”,不管是看到的视频画面、听到的文字指令,统统先在“纸”上压缩成一种只有AI能懂的“密语笔记”,等需要时,机器人将会根据同一份笔记,出接下来的场景,出机器人的动作,或者出物体的位置和力度。

在迈向世界模型进的前几年,智源研究院在AI上的动作,就像是一部层层递进的"连续剧",一步步构建从数字世界走向物理世界的通用基座——

从早年的"悟道"大模型,智源研究院将国内大模型叙事从0推到公共视野,再到逐渐把竞争点引导向原生多模态统一架构(包括悟界·Emu3/悟界·Emu3.5),此后,智源研究院明确提出要向“下一状态预测(NSP)”跃迁,并将这套逻辑接入悟·Physis和悟界·RoboBrain Orca的可部署系统中。

在这段期间,智谱AI、月之暗面、面壁智能、银河通用等多家行业头部企业的核心创始人唐杰、杨植麟、刘知远、王鹤等,也都均在智源开展过相关领域研究。

尽管世界模型热得滚烫,王仲远却对这股热潮保持着难得的冷静。他认为,世界模型大概处在深度学习的2012年前后——彼时,数据孤岛严重、路线未定、Benchmark还在打架,ChatGPT时刻尚未到来。

在他看来,世界模型接下来的硬仗,在于几个维度的综合比拼。

首先,模型不能只生成看起来真实但不符合真实物理规律的画面,比如只是生成“会飞上天的猪”,还要具备长时序一致性,不能不是几秒钟的视频,而是连续变化的状态。

其次,世界模型必须进行因果逻辑推断,需要理解动作和结果之间的关系,比如,要明白盖盖子和没盖子的杯子同时掉落时,会发生什么。最后,世界模型需要作为基座模型应用到多种场景,而不是只服务某个Demo或单一任务。

落到应用侧,在他看来,世界模型的价值会在两大大方向兑现,除了用于突破具身智能的卡点,服务于机器人领域之外,世界模型还可以广泛应用于严肃工业、物理仿真、科学研究等真实物理场景。

“我们期待未来世界模型能成为真正的机器人大脑,世界模型解决了现在VLA、VLM解决不了的问题,提供了泛化、长程、复杂任务和主动探索能力。但这会是一个长期过程,可能需要三年甚至更长时间。”王仲远表示。

近期,王仲远与硬氪等媒体聊了聊对世界模型的看法、以及世界模型与具身智能的衔接点,以下是采访实录(略经摘编):

世界模型四条分岔路

硬氪:为什么今年智源大会重点谈“世界模型”,它和过去的大模型路线是什么关系?

王仲远:我们不是突然提出世界模型这个概念。早在2024年智源大会上,我们就对人工智能的发展路径做过预判:大语言模型之后,会进入原生统一多模态,再进入物理世界与硬件结合,进一步走向微观世界的AI for Science,最终通向物理AGI。

今年智源大会有两大主题,一个是世界模型,一个是智能体。智能体现在非常热,尤其是AI Coding已经进入蓬勃爆发阶段;世界模型则是我们认为人工智能从数字世界进入物理世界时必须面对的下一代基座模型问题。

硬氪:当前世界模型有哪几条技术路线?

王仲远:现在主流的有四条路:

以语言为中心路线(如Gemini3):能感知多模态数据,通过语言思考并描述下一状态,具备规划决策能力。

以像素为中心路线(如Sora):适合视频生成,但不懂物理因果;

以三维结构为中心路线(如李飞飞World Labs的Marble):瞄准元宇宙、游戏等数字世界仿真;

以视觉表征为中心路线(如LeCun的V-JEPA系列):预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。

硬氪:智源的世界模型可以归类于什么路线里?

王仲远:我们更倾向于在潜空间中学习世界知识,也就是Latent Relation,尝试把世界知识真正压缩到隐空间中,再通过不同Decoder输出Language、Action和Vision。

智源选择尝试以语言为中心的分类和以视觉表征为中心的分类可能的融合,原因很简单,世界模型不仅要“看懂”物理世界,更要“理解”并“决策”。比如人类看到半杯水被打翻,大脑会自动预判“水流方向、地面材质对流速的影响”——这种能力需要将视觉信号与语言推理深度融合,而不是只生成画面。

我也认同LeCun对“大语言模型局限性”的判断,但我并不认为语言模型不重要,语言是人类知识的载体,放弃语言等于放弃了人类积累的物理常识。

硬氪:现在很多公司把视频生成模型称为世界模型,你怎么看?

王仲远:我非常明确地认为,视频生成不等于世界模型。现在世界模型这个词被广泛使用,很大程度上是因为OpenAI发布Sora时用了“World Simulator”的表述。

世界模拟器用于描述视频生成还算相对准确,但视频生成模型本身并不等同于世界模型。今年很流行的World Action Model,把视频和Action拼接起来,也不能完全代表真正意义上的世界模型。

在我看来,真正的世界模型应该是面向真实物理世界的下一代基座模型。它不是单纯生成一段看起来很逼真的视频,而是要理解真实物理世界的状态变化、动作因果、长时间序列一致性和泛化能力。

语言模型时代的核心是Next Token Prediction,也就是预测下一个词元。而世界模型时代的核心应该是Next Physical State Prediction,预测下一个物理状态。

语言模型可以用Prompt激发能力,世界模型则需要用State激发能力。语言模型更多是被动观察,世界模型必须主动交互。语言模型可以是单模态或多模态,世界模型必须走向全模态。

硬氪:一个真正面向物理世界的世界基座模型,需要具备什么能力?

王仲远:我认为至少需要几个能力。

第一,要物理正确,光学折射、重力、流体、物体运动都要符合真实物理规律。视频生成模型可能生成一群在天上飞的猪,但物理世界不会这样运行。如果机器人装上一个不能区分真实和虚幻的“大脑”,它可能误以为自己是钢铁侠,这会带来严重风险。

第二,要有动作因果可溯。模型不能只知道画面变化,还要知道Action会导致什么结果。比如,一瓶水有没有盖盖子,当人类看到它快掉落时,自然会预判不同后果,世界模型需要把这种动作与后果之间的关系学进去。

第三,要有长时间序列一致性。很多视频生成模型可以生成5秒、10秒甚至1分钟的视频,但并不代表它真正理解时间。如果给一个瓶子加水,旁边有一个时钟,镜头移开再移回来,模型要知道现实中确实经过了10秒或20秒,而不是随意生成一个看似合理的画面。

第四,要有通用泛化能力。世界基座模型必须能应用在多个下游场景,就像大语言模型可以用于很多任务一样。它不能只是一个特定场景的工具,而要能服务具身、物理仿真、科学预测等多种任务。

世界模型或成为真正的机器人大脑

硬氪:当前具身智能最大的问题是什么?

王仲远:我认为具身智能还处在非常早期。现在的具身模型多数还是单场景、被动任务执行者。它们可以在特定工厂、特定任务、特定数据下工作,比如看到包裹就执行抓取、分拣、放置。这类场景中,VLA或者更简单的模型都可能有效。

但问题在于,它们很难泛化。真实物理世界是复杂的,有时间、空间、物理规律,也有人类创造的各种工具和环境变化。机器人如果只是被动执行指令,靠一个场景一个场景解决问题,就很难真正大规模落地。

我认为,世界模型和具身智能是相互呼应的。具身智能暴露了当前模型在物理世界中的短板,世界模型则试图补上这个短板。

硬氪:现在也有一些论调称,“VLA已死”,世界模型是不是具身智能的必要路线,两者的关系是什么?

王仲远:我的判断是:VLA是当下,世界模型是未来。

VLA当然有用,而且有很大用处。它可以促进机器人在特定场景落地,甚至有些特定场景不一定需要更复杂的世界模型,只要看到包裹就执行动作,搜集特定数据就可以完成任务。

但VLA有局限,比如泛化性不足,其次是长程任务、复杂场景和空间物理规律理解能力不足。再者,VLA模型往往比较大,部署响应速度和Latency较高,不一定能满足真实物理世界中高频动作执行的要求。世界模型要解决的是更底层的问题。

硬氪:世界模型对机器人执行任务的帮助,能否举一个具体的例子?

王仲远:世界模型不应该只是生成数据,也不只是生成视频。它更重要的能力是基于当前Context和状态,预测未来可能发生的状态,并据此做出当下最优决策。

可以用一个比喻来理解,有点像《奇异博士》看到不同未来,然后选择最优结果。机器人面对真实环境时,也需要类似能力。它要理解当前环境,预测不同动作会带来什么后果,再选择最合适的动作。

比如机器人在酒店或家庭环境中,看到一个门、一只手势、一个声音指令、一个房间状态,它需要结合历史记忆和当前Context做出判断:是关厨房的门,还是关房间的门,还是采取其他动作。这不是简单的图像识别,也不是简单的语言指令执行,而是复杂推理后的物理决策。

这就是我们说的世界模型要指挥Agent物理实体执行Action。执行之后,还要继续采集反馈,评估任务是否完成,并进入下一轮状态预测和决策。

硬氪:世界模型最终是否会成为真正的机器人大脑?

王仲远:这是我们的期待。我们希望未来的世界模型能够在具身场景下真机部署,解决VLA、VLM和传统动作执行无法解决的问题。机器人需要有泛化能力、长程任务能力、复杂推理能力、主动探索能力。它不仅要能看懂世界,还要能理解动作后果,规划未来状态,指挥机器人执行动作,并根据反馈修正决策。

这件事不会短期完成。世界模型是一个长期过程,瞄准的不是短期落地应用,而是下一个人工智能时代的核心能力。短期内,具身机器人会先在具体场景中落地,采集数据,形成闭环;长期看,世界模型有机会成为真正意义上的机器人大脑。

硬氪:世界模型现在最难突破的技术难点是什么?

王仲远:一个核心难点是数据,尤其是真实物理世界的数据。

大语言模型的爆发依赖互联网数据。世界模型要进入物理世界,也需要足够多、足够高质量的真实物理数据。现在真实世界数据仍然非常缺乏,而且是散落的孤岛,没有形成足够充足、可复用、可训练的数据体系。

视频数据是目前最容易Scale Up(规模化)的数据,因为它海量存在,也确实包含大量真实物理世界的信息。但问题在于,现在科研技术还没有充分挖掘视频数据里的物理信息。

除了视频,我们还需要真实交互数据、异构感知数据、动作轨迹数据、人类指令数据、机器人执行反馈数据。具身机器人在真实工厂、酒店、家庭等场景中工作时,会产生大量有价值的数据,这些数据闭环可能会加速世界基座模型的训练和爆发。

硬氪:如果真实物理世界数据不足,是否可以依靠仿真数据?

王仲远:仿真数据有必要,能弥补真实数据采集不足,但我对完全依赖仿真数据构建更强模型是有疑虑的。因为仿真数据本身是人类构造的,它的精准度不一定足够,如果用不够精准的海量数据训练模型,能不能构建出真正理解物理世界的模型?这是需要验证的。

未来可能会像语言模型训练中的数据配比一样,把互联网数据、视频数据、仿真数据、真实机器人数据、科学数据等,放在一起训练世界基座模型。

但不同数据如何配比,现在还没有标准答案,数据质量和配比会直接决定模型能力,这很大程度上仍然依赖研究员的判断、实验和下游任务验证。最直观的验证方式就是具身智能,模型真正部署到机器人上,能不能在训练数据之外完成任务,能不能在复杂场景中做出合理决策,这些会成为判断数据和模型能力的重要标准。

硬氪:如果世界模型还很早期,具身智能短期如何落地?

王仲远:短期内,具身智能会沿途下蛋,也就是先解决具体场景问题,比如工厂分拣、打包、贴纸、放充电器、合上盖子,或者酒店服务等To B场景。

这些场景本身有商业价值,也能在落地过程中采集数据。机器人在真实场景中干活,会产生人类指令、人类交互、动作轨迹、任务结果等数据,这些数据反过来会帮助未来世界基座模型训练。

所以我们不能等所有数据都Ready之后再探索技术路径,技术要先行,产品和系统会跟上。就像深度学习、Transformer、大语言模型的发展一样,技术路径往往早于产品爆发。

世界模型尚未到GPT时刻

硬氪:世界模型最可能率先落地在哪些场景?

王仲远:具身智能肯定是最重要的应用场景之一,除此之外,世界模型也可以用于物理仿真、科学实验、AI for Science等场景。

现在的很多模型无法解决这些真实场景中的问题,归根结底,我们希望有一个面向真实物理世界的基座模型,帮助人工智能更好地感知、理解物理世界,并具备推理和决策能力。

硬氪:如果类比大语言模型的发展阶段,世界模型现在处于什么阶段?

王仲远:我认为世界模型和具身智能大概处在2012年的时期。那个时候深度学习刚刚兴起,从2012年到2018年,再到2022年底ChatGPT发布,大语言模型真正爆发走了大约十年。现在世界模型还没有到GPT时代,因为数据非常缺乏,技术路线也没有完全收敛。

但人工智能演化速度越来越快,世界模型可能三年到五年,随着视频数据进一步被挖掘,具身机器人不断在真实场景落地,真实物理世界数据不断累积,世界模型会更快进入爆发阶段。

硬氪:大语言模型时代,中美通常被认为有六到十二个月差距。世界模型时代,中国和海外是否还有差距?

王仲远:大语言模型早期,我们更多是在跟随。世界模型是世界上最前沿的研究方向,概念、路线、模型形态都还没有完全收敛。我觉得世界模型没有差距,大家站在同一起跑线。

硬氪:未来世界模型的竞争会集中在哪些方面?

王仲远:现在大家都说自己在做世界模型,但很多所谓世界模型其实是工具,或者是解决特定场景的模型,并不一定是通用世界基座模型。未来真正关键的竞争点,我认为包括几个方面:

第一,能否具备真实物理可验证能力。模型不能只生成看起来真实的画面,而要符合真实物理规律。

第二,能否具备长时序一致性。真实世界不是几秒钟的视频,而是连续变化的状态。

第三,能否进行因果逻辑推断。模型需要理解动作和结果之间的关系。

第四,能否作为基座模型,用不同数据微调后应用到多种场景,而不是只服务一个Demo或一个垂直任务。

我认为世界模型最后一定需要通过系统和产品来证明。只有当它能在机器人、物理仿真、科学实验等真实任务中体现价值,行业才会逐渐收敛对世界模型的定义和路线判断。

硬氪:过去大模型积累的基础设施能否复用?世界模型对算力等等,有什么新的要求吗?

王仲远:我比较乐观地认为,现有的大模型算力基础设施、训练框架、数据工具链都可以在很大程度上复用。悟界Emu3.5当时强调的一个理念,就是采用类似大语言模型的架构,并证明它能够Scale Up。

到了世界模型阶段,依然需要处理声音、图像、动作轨迹、语言等各种模态,这些在多模态和具身领域已经有基础。但是,新的挑战在于Action和State怎么采集、怎么表达、怎么训练。世界模型会带来新的需求,但基础设施并不是完全从零开始。

首页图源|企业供图

排版|范馨雅

end