惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
V2EX - 技术
V2EX - 技术
MyScale Blog
MyScale Blog
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
Microsoft Security Blog
Microsoft Security Blog
G
Google Developers Blog
博客园 - 司徒正美
WordPress大学
WordPress大学
博客园 - 【当耐特】
博客园 - 三生石上(FineUI控件)
The GitHub Blog
The GitHub Blog
小众软件
小众软件
罗磊的独立博客
Jina AI
Jina AI
A
About on SuperTechFans
博客园 - 叶小钗
爱范儿
爱范儿
阮一峰的网络日志
阮一峰的网络日志
T
Tailwind CSS Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
V
V2EX
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Project Zero
Project Zero
F
Fortinet All Blogs
腾讯CDC
V
Visual Studio Blog
博客园 - 聂微东
P
Privacy & Cybersecurity Law Blog
K
Kaspersky official blog
C
Cybersecurity and Infrastructure Security Agency CISA
Apple Machine Learning Research
Apple Machine Learning Research
S
Schneier on Security
Y
Y Combinator Blog
Security Latest
Security Latest
Stack Overflow Blog
Stack Overflow Blog
Simon Willison's Weblog
Simon Willison's Weblog
T
Tor Project blog
Cisco Talos Blog
Cisco Talos Blog
L
Lohrmann on Cybersecurity
T
Threat Research - Cisco Blogs
Latest news
Latest news
T
The Exploit Database - CXSecurity.com
G
GRAHAM CLULEY
The Cloudflare Blog
H
Heimdal Security Blog
D
Docker
N
News and Events Feed by Topic
I
InfoQ
The Hacker News
The Hacker News
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org

36氪

滨化股份港股上市获中国证监会备案-36氪 飞南资源:一季度净利润4.05亿元,同比增长7919.37%-36氪 A股三大指数集体收跌,全市场超3300股飘绿-36氪 阳光电源股份有限公司向港交所提交上市申请书-36氪 沪深两市成交额连续第222个交易日突破1万亿元-36氪 证监会部署打击和防范上市公司财务造假专项行动 天辰生物港股IPO获中国证监会备案-36氪 阿里云:4月30日10:00起,Qoder Teams版新购价格调整为300RMB/席位月-36氪 超捷股份:第一季度净利润1422.89万元,同比下降1%-36氪 外汇局:1-3月,中国外汇市场累计成交75.78万亿元人民币-36氪 当升科技:第一季度净利润2.77亿元,同比增长150%-36氪 最前线|AI收入破亿后的路径选择:微盟推行AI First战略与B端交付的挑战-36氪 洛阳钼业:第一季度净利润77.6亿元,同比增长96.65%-36氪 高德地图发布“AI 伴行”-36氪 赤峰黄金:第一季度净利润9.88亿元,同比增长104%-36氪 恒指收涨0.24%,恒生科技指数涨0.75%-36氪 中材科技:第一季度净利润5.07亿元,同比增长40.15%-36氪 东阿阿胶:第一季度净利润4.55亿元,同比增长7.14%-36氪 杭钢股份:第一季度净利润960.76万元,同比扭亏为盈-36氪 法国国民健康数据将从微软迁移至本土平台-36氪 歌尔股份:公司MEMS传感器产品在消费电子和汽车电子领域内均有较多应用场景-36氪 财政部:截至上周,消费品以旧换新带动销售额超5400亿元,惠及近7500万人次-36氪 财政部:一季度国债发行规模超3.62万亿元,投资者认购积极踊跃-36氪 DeepSeek V4发布,海光DCU完成Day0适配-36氪 财政部:一季度全国税收收入4.85万亿元,同比增长2.2%-36氪 财政部:股票市场交易活跃,一季度证券交易印花税增长78.1%-36氪 财政部:一季度全国一般公共预算收入6.16万亿元,同比增长2.4%-36氪 日本将从5月1日起释放第二批石油储备-36氪 天猫与长安汽车达成合作,正式入局整车销售-36氪 理想L9 Livis计划于5月15日正式上市,并开启交付-36氪 百度联盟正式发布海外App业务-36氪 挪威将禁止16岁以下儿童使用社交媒体-36氪 小马智行联合宁德时代首发L4级无人驾驶轻卡-36氪 日本将成立特别工作组应对金融体系网络安全风险-36氪 美股新高之际 高盛警告:美股近期可能下跌,切莫贸然加仓-36氪 有道龙虾已率先集成DeepSeek-V4和Kimi K2.6-36氪 PPIO首批上线DeepSeek-V4-36氪 特斯拉:赛博无人驾驶电动车Cybercab在北美投产-36氪 航油价格飙升令多家美国航空运营商业绩承压-36氪 国家能源局:3月核发绿证3.03亿个-36氪 每日互动DeepSeek-V4私部方案已就绪-36氪 沪深两市成交额连续第13个交易日突破2万亿-36氪 博硕科技:蓝海芯新材料已投入运营,当前营收规模较小-36氪 DeepSeek V4终于发布,但它留下的5道主观题还没有答案-36氪 起亚公司第一季度销售额29.5万亿韩元,高于市场预期-36氪 小鹏第二代VLA智驾报告首发,全系Ultra车型订单环比提升118%-36氪 北京君正:目前公司在研发LPDDR5-36氪 融了2000万美金,这家2000万美金ARR的AI公司,推出“视频版Photoshop”「Buzzy」 阶跃发布新一代自动语音识别模型StepAudio 2.5 ASR-36氪 NEC宣布与Anthropic达成网络安全合作-36氪 Keep发布9.0版本-36氪 李斌:汽车行业决赛期还有五年结束-36氪 电投贵安数据中心公司注册资本增至2.98亿元-36氪 半日主力资金加仓基础化工板块,抛售通信板块-36氪 海光C86全栈产品与解决方案亮相第87届教育装备展-36氪 茅台向经销商「要利润」-36氪 香港机场3月客运量同比增长19.6%-36氪 恒指午间休盘跌0.2%,恒生科技指数涨0.34%-36氪 英特尔CEO:半导体行业整体潜在市场规模已逼近1万亿美元-36氪 江苏省环保集团注册资本增至约63.6亿元 A股三大指数午间休盘集体下跌,贵金属板块领跌-36氪 英特尔CEO:所有业务板块需求仍高于供给,预计至强服务器CPU今明两年保持强劲增长势头-36氪 中国首款原生开发Robotaxi亮相北京车展,曹操出行定制版计划2027年量产-36氪 摩根士丹利:新兴市场股票远未进入新的长期牛市-36氪 Gartner:2025年阿里云中国市场份额32.8%,同比提升2.7个百分点-36氪 DeepSeek官网公布DeepSeek-v4接口文档-36氪 2026年大众汽车将在中国推出13款新能源车型-36氪 华尔街多家公司承诺提供60亿美元支持QXO收购TopBuild-36氪 现货白银向下跌破75美元/盎司-36氪 软银拟改造工厂为数据中心生产电池-36氪 蔚来在武汉成立新能源科技公司-36氪 万兴科技旗下万兴脑图上线“万兴脑图AI”-36氪 国家能源局:1-3月全国电力市场交易电量同比增长25.6%-36氪 菲律宾央行暗示将小幅加息以抑制通胀-36氪 可灵AI 3.0模型新增原生4K能力-36氪 用“活人感”做科技社区,小红书能成吗?-36氪 创业板指跌逾2%,AI硬件、软件领跌-36氪 天鹜科技发布对话式蛋白质研发智能体MatwingsVenus™-36氪 人工智能初创公司Cognition AI进行融资谈判,估值达250亿美元-36氪 恒生指数跌幅扩大至1%-36氪 OMV新西兰公司预计毛伊气田将于2026年停产-36氪 维塔流动近日完成数千万元Pre-Seed轮融资-36氪 亚马逊支持的X-Energy通过IPO募资10.2亿美元-36氪 千问加速上车,10多家车企同日宣布接入-36氪 天问三号任务计划于2031年前后携带火星样品返回地球-36氪 统筹推进商业航天标准化建设,商业航天标准体系(1.0版)发布-36氪 博裕、经纬、顺为等投资前新石器COO超亿元,押注AI超便携电子纸|硬氪独家-36氪 A股三大指数集体低开,新易盛跌超9%-36氪 央行今日开展50亿元7天逆回购操作-36氪 恒指开盘跌0.7%,恒生科技指数跌0.8%-36氪 人民币兑美元中间价报6.8674-36氪 小米汽车:新一代SU7已交付26000台-36氪 8点1氪丨华谊兄弟被申请破产重整;普华永道因恒大审计赔偿10亿港元;伊朗将恢复往返中国的航班-36氪 打造生物智能基础设施,AI4S企业「奥明星程」获超亿元A轮融资|36氪首发-36氪 美国百年太妃糖易手,Roca乐家被全资收购-36氪 破局“智驾双雄”,千里科技如何以AI之力重塑行业格局-36氪 氪星晚报|ThinkPad发布AI主机,可一键部署“龙虾”、较云主机三年总成本可节省48%;量化投资先驱马丁·卢克警告勿将交易决策全盘交予人工智能;国家知识产权局:2025年我国共授权发明专利97.2万件-36氪 创·问|炜璨医疗李强:从理解规则,到建立规则——重塑植入式给药路径-36氪 固态激光雷达“像素竞赛”加速,速腾聚创VGA大面阵SPAD-SoC产品发布|最前线-36氪 36氪官方AI专属社群,正式开放招募!-36氪
硬氪专访 | 罗剑岚:机器人真正的Scaling Law,发生在真实部署闭环里-36氪
邱晓芬 · 2026-06-17 · via 36氪

作者 | 邱晓芬

编辑 | 袁斯来

过去半年,国内具身智能赛道经历了一场静悄悄的重心转移:聚光灯从硬件本体的“自由度竞赛”,逐渐移向决定机器人智能上限的深水区。

只是,当行业反复讨论“机器人能否通过暴力堆数据复刻大语言模型 ScalingLaw”时,上海创智学院副教授、智元机器人首席科学家罗剑岚,给出了一个并不随大流的判断:具身智能不能简单照搬大语言模型的发展路径。

罗剑岚的表达风格极具辨识度。他习惯在中英文专业术语之间快速切换,逻辑推进密集,很少给出模糊的折中答案。

相比停留在“数据、模型、Infra哪个更重要”的单点争论上,他更倾向于直接指出问题本身:当前具身智能的核心矛盾,不是某一个环节的单独突破,而是这些环节能否在真实部署中形成闭环。

这种判断来自他横跨学术研究与产业落地的经历。作为曾经的伯克利博士,他师从具身智能领域奠基性人物Sergey Levine(谢尔盖·列文)。毕业后,他曾任Google X与DeepMind研究科学家,14个月前,他回国并加入创智学院和「智元机器人」。

在他看来,目前行业里相当一部分所谓“具身基础模型”的训练方式,并不是真正意义上的预训练,更接近中训练(Mid-training)或微调(Fine-tuning)。

原因也很现实:当前高质量真机交互数据仍然稀缺,尤其是覆盖多场景、多任务、多本体,并且包含失败、纠错和长尾交互的数据,远不足以支撑类似大语言模型那样的大规模预训练。

这也造成了一个现象:在真机交互数据不足的阶段,行业里不少团队会选择在已有开源模型底座之上,叠加高质量遥操数据,在特定任务上进行对齐或微调。

这种路径在短期内可以快速提升实验室任务表现,但它并不等同于真正意义上的具身基础模型预训练。模型在离线数据上的Loss(损失)曲线变好,更多说明它更好地拟合了已有数据;至于能否迁移到新的物理场景、处理长尾扰动和失败恢复,仍需要通过真实部署来验证。

(作者注:Loss是“模型每次猜错了多少的分数”,Loss曲线就是把这分数按时间画出来。Loss曲线往下走,通常表明模型在训练数据上拟合得更好;但在机器人领域,它并不必然等同于真实场景中的部署成功率提升。)

也正因此,罗剑岚认为,具身智能不能盲目照搬GPT式的Scaling Law。

具体而言,在大语言模型中,预训练Loss与模型能力之间存在相对稳定、可预测的统计关系。

但在机器人领域,离线Loss下降并不必然对应真实部署成功率提升——机器人面对的是开放物理世界,涉及接触、扰动、长尾场景、硬件差异和任务反馈,模型“记住”了数据,并不代表它能真正“驾驭”现实。

因此,具身智能真正的突破不只是堆参数或堆数据,而是应该部署一个闭环——直到机器人部署规模扩大后,新场景适配成本能够持续下降,数据回流能够稳定提升模型能力,这才是物理世界中的“Scaling Law时刻”。

在这一逻辑框架下,回国后罗剑岚,核心任务正是构建一个可规模化演进的具身智能闭环。

他将这一年的工作重点凝练为三个技术支点:

首先是SOP(可扩展在线后训练)。SOP面向的是大规模机器人在线后训练所需的基础设施问题,包括低延迟数据回流、云端计算、训练调度和模型更新。它的价值不只是一个算法模块,而是验证机器人数据能否从部署现场高效进入训练闭环。

其次是LWD(部署中学习)。它试图打破过去“训练—部署”的割裂状态,让机器人不再是出厂即定型的产品,而是在便利店、商超等真实场景中持续进化的系统。当机器人遇到未见过的货架形态、商品摆放或操作扰动时,系统能够通过真实交互不断积累数据,并将这些经验转化为后续模型改进。

最后是近期由上海创智学院和「智元机器人」联合发布的τ0-WM世界模型。

τ0-WM并不把视频生成当作最终目的,而是把视频预测作为学习物理动力学、评估动作后果的一种手段。更具体地说,它希望成为一个动作条件的物理推演器:在机器人真正执行动作之前,先在模型内部比较不同候选动作可能带来的未来结果,从而帮助系统选择更可靠的动作。

举个例子,面对桌边的鸡蛋,普通VLA可能直接输出抓取动作;而动作条件世界模型可以先比较几条候选轨迹的未来后果,避免选择会把鸡蛋扫落桌面的动作。

在罗剑岚看来,接下来具身智能真正的决胜点,不是硬件,更不是数据、模型、Infra单点能力的强弱,而是它们能不能彼此形成闭环——这就像是木桶的不同木板,任何一个关键环节短板过短,系统能力都难以真正释放。

“谁能率先在便利店、商超、仓储等半结构化场景中,跑通‘部署—数据—迭代’的数据飞轮,谁就真正具备了大规模商业化的可能性”,他表示。

而关键的时间节点,或许正是未来的12到18个月。

近期,硬氪与罗剑岚聊了聊。以下是采访实录,略经摘编。

真正的具身预训练,门槛比想象中更高

硬氪:你为什么认为现在国内具身智能行业里,真正做基础模型训练的团队很少?

罗剑岚:类比大语言模型的发展阶段,我觉得现在机器人领域有能力做具身基础模型预训练的团队很少,大家做的更多是fine-tuning(微调)或“中训练”(Mid-training)。

甚至很多中训练也不算夯实。现在行业里很多所谓“机器人基础模型”,更接近在已有开源底座上的任务适配或中训练,还没有真正进入大规模、异构、真实交互数据驱动的预训练阶段。

行业里甚至有一个半开玩笑的说法:“paper上,PI(Physical Intelligence)从来没赢过;现实里,PI从来没输过。”

这句话背后反映的其实是一个问题:机器人模型不能只看论文指标,最终还是要看真实世界里的部署效果。

回顾LLM的路径,预训练模型本身的输出其实充满噪声,需要通过中训练进行高质量对齐,再通过后训练进一步激活特定能力。

真正的机器人基础模型预训练,也应该像LLM一样,吸纳极其广泛、甚至包含噪声的数据。只不过机器人领域的数据不是静态文本,而是真实世界中的交互、失败、纠错、恢复和长尾场景。

硬氪:预训练、中训练、后训练,在数据和架构上有什么区别?

罗剑岚:这是训练的三个阶段,核心差异是数据和训练算法。

预训练是用极广泛的数据训练模型,什么数据类型都覆盖一点;

中训练是用高质量的机器人遥操示范数据,对齐任务需求;

后训练是针对特定能力做优化,比如大语言模型中的推理能力,往往需要通过后训练、强化学习或高质量任务数据进一步激活和对齐。

硬氪:那接下来国内公司在补齐预训练和后训练时,可能会遇到什么挑战?

罗剑岚:核心是数据,还有真实场景部署的问题。整套系统从数据到Infra到模型,是环环相扣的,没有哪一个是绝对更重要的,这个是木桶效应。

我认为,真实世界的数据必须作为底座。这就像不同年龄读同一本书:3岁看不懂,20岁能理解情节,40岁能看到人性。

如果基础模型越强,吸收异构数据、迁移到新任务的效率就会显著提高;但是如果没有真实数据打底,单纯依赖仿真或视频数据,模型的上限会被限制住。

硬氪:现在很多公司都在说机器人的“GPT时刻”。你认为大概要堆到什么量级的数据,才能真正实现泛化?

罗剑岚:我反对盲目对标GPT式的Scaling Law。

如果限定在高质量、真实交互、可用于闭环部署的机器人数据上,当前行业的数据规模仍然远远不足。很多所谓“百万级”“千万级”的数据说法,背后口径并不统一:有的是视频,有的是轨迹,有的是仿真,有的是遥操,有的是单一任务重复采集。机器人数据到底怎样计量,行业本身还没有完全收敛。

大语言模型的Scaling Law建立在预训练Loss与模型能力之间相对稳定、可预测的统计关系上;但这一规律在具身智能领域并不自动成立。

机器人的训练Loss下降,仅代表模型更好地拟合了静态数据,并不等同于其在物理世界中的部署成功率提升。物理交互的复杂性意味着,模型“记住”了数据,并不代表它能“驾驭”现实。

因此,具身智能的金标准,绝非数据规模或Loss值,而是真实场景的部署效能。真正的突破点在于,当我们观察到随着部署台数增加,新场景适配成本持续下降,模型迭代效率持续提升——这才是数据飞轮开始转动的临界点。

遗憾的是,学界与业界至今无法精确计算这一临界点对应的数据量级。

机器人需要一个闭环

硬氪:你在一年多以前回国,观察下来,国内外具身智能机器人业态最大的差别是什么?

罗剑岚:机器人是一个全栈系统,需要硬件、模型、智能,也需要靠真实部署形成数据闭环,不能等某一项技术完全收敛之后再做另一项。

国内的优势是产业链、供应链、工程能力和人才密度。现在全球都还没真正突破的是机器人的“大脑”。我们应该把这些优势结合起来,快速跑通闭环,发挥好国内原有的硬件、场景和部署优势,而不是只卷本体。

硬氪:你回国之后做了很多工作,比如LWD、SOP,还有前段时间发布的世界模型。这些研究成果各自的作用是什么?这个完整闭环主要由哪几个部分组成?

罗剑岚:从底层往上捋,最底层是大量部署在真实场景中的机器人硬件,也就是Fleet learning(机器人集群协同学习)。你首先要有一支足够规模的机器人“舰队”。

再往上是基础设施层,包括云端实时计算、数据回流、通信、训练加速、推理加速这些软硬件云一体的Infra。我们之前发布的SOP,其实就是这个Infra的概念验证,证明这套链路可以跑通。

再往上是算法层,包括两部分:一部分是预训练,另一部分是后训练。我们几个月前发布的LWD,解决的就是机器人后训练、自我进化的问题。后面我们也会继续推进自己的预训练基础模型。

我们整体闭环的逻辑是:真实部署不是训练的终点,而是智能继续演化的起点。它可以形成一个正向飞轮:部署更多机器人,产生更多数据,训练出更好的模型,然后部署更多机器人。

硬氪:理想中的数据飞轮效果是什么样的?

罗剑岚:就是越部署越强的正向循环:模型变强,部署更多机器人;部署更多机器人,回流更多数据;回流更多数据,再训练出更强的模型。

比如,在便利店、商超这类半结构化场景中,部署前20家的时候,可能需要收集大量交互数据;但随着部署数量增加,新场景适配成本会显著下降。理想情况下,部署到第100家时,新场景适配所需的数据量会变得很少,甚至接近开箱即用。

硬氪:打通这个闭环的意义是什么?

罗剑岚:现在的硬件虽然还不完美,但对于构建特定任务的闭环来说,硬件已经基本够用,并未成为核心瓶颈。真正的短板在于数据闭环——也就是从模型、数据到整个链路的持续迭代能力。

目前全球有远见的CEO都在关注具身智能,大家都在等那个“第一个信号”出现。一旦有人在半开放场景中跑通商业闭环,证明数据飞轮能转起来,资本和产业资源就会迅速向这个方向集中。

这正是创业公司的机会。大厂们受制于OKR和既有护城河,转身相对缓慢;创业公司的优势在于速度。我们不需要颠覆所有场景。

未来12到18个月,如果有团队能在便利店、商超、仓储等半结构化场景中率先跑通“部署—数据—迭代”的正向循环,它就会建立非常强的先发优势。

世界模型不是生成视频,而是预测动作后果

硬氪:现在世界模型很热,你对此的理解是什么?

罗剑岚:这个话题每两年就会被拿出来讨论一次,从2017、2018年就开始了。之前主要是技术圈内部讨论,现在AI的社会关注度很高,所以世界模型也出圈了。

对于世界模型,我更关注的是action-conditioned predictive model,也就是动作条件的预测模型,或者可以理解成前向动力学模型——在给定当前状态和动作的条件下,预测执行这个动作后的未来状态、奖励或者其他utility的变化。它的核心,是能在不真正执行动作的情况下,评估动作对未来世界状态的影响。

举个例子,早上煮鸡蛋,我脑子里会预判,用小火煮要很久,不如用大火。这个过程并不需要我真的先把每个动作执行一遍,而是在脑子里判断方案好坏。

硬氪:为什么现在世界模型的技术路线这么不收敛?

罗剑岚:现在世界模型最大的问题是定义过宽。很多人口中的世界模型,其实更接近video prediction model,也就是预测画面会怎么变化。但机器人真正需要的,不只是未来画面,而是动作会如何改变后续世界状态。有了这个,才能做规划和动作评估。

如果一个模型只是生成未来画面,却不能用来评估动作对世界状态的影响,那它对机器人决策的价值就很有限。对我来说,更重要的是action-conditioned predictive model:给定当前状态和候选动作,预测这个动作会把世界带到什么状态。

现在很多纯做世界模型的公司,是把世界模型当作最终目标。但对我来说,世界模型是实现预训练目标的工具,两者逻辑是反的。

硬氪:那你们借用世界模型这个工具,希望实现什么目标?

罗剑岚:目标就是预测动力学,能在不执行动作的情况下评估动作好坏,提升规划准确性,让整体系统效果变好。

硬氪:最近行业里有声音说VLA已死,你怎么看?在世界模型价值得到关注之后,两者之间的协同是什么样的?

罗剑岚:VLA里面,V是Vision(视觉),L是Language(语言),A是Action(动作)。其中,视觉与动作的必要性已经形成共识,核心争议在于语言是否必需。

我认为,语言不可或缺。它是复杂任务拆解、长程推理与上下文衔接最自然的接口,VLM是当前处理这类高层规划的最优载体。

当前VLA将一切对齐到语言空间,采用“离散预训练+连续动作头”的模式,或许并非终局;但我认为,直接断言“VLA已死”过于极端。机器人作为复杂决策系统,既需要底层动作精度,也需要高层规划能力。

现阶段数据量还远不足以否定VLA的价值。虽然世界模型在时序动力学建模和动作预测上有优势,但在language grounding(语言锚定)和复杂逻辑处理上仍有短板。例如“煮鸡蛋”这类长程任务,世界模型本身尚难完成完整的多步拆解与执行。

未来真正的突破在于VLA与世界模型的融合:用VLA处理语言驱动的宏观规划,用世界模型保障物理执行的精准度。

硬氪:所以你认为,并不需要那么多数据,也能实现泛化?

罗剑岚:数据重要,和需要多少数据,是两回事。

现在行业里有一个假设是:“数据不够所以不work,所以需要更多数据。”但也有另一种可能——

比如,全球有1亿个家庭,或许我们并不需要收集8000万个家庭的数据,才能泛化到剩下的2000万个家庭;可能只需要1万个家庭的数据,再结合其他方法,就能泛化到剩下的9000多万个家庭。

现在没人能证明哪种假设是对的,只能一边做一边验证。做科研就是要不断提出假设,以最小成本试错,找到梯度下降的方向,而不是凭空臆想结论。

硬氪:现在在数据侧,第一视角这类数据也很火。这是过渡方案,还是长期重要的组成部分?

罗剑岚:要看底座模型是什么。

如果基础模型不是从0开始训练,而是基于现有的VLM、video model,那这些模型已经吸收了这类数据的特征,所以第一视角数据是有用的;但如果从0开始训练具身基础模型,核心还是真机部署数据。

现在因为机器人领域处于数据荒漠阶段,有任何数据都会比没有数据好。但在小数据规模前提下得出的结论,到大数据阶段很可能不成立。

这就像自动驾驶初期,大家会讨论仿真数据、Google街景、行车记录仪数据等各种替代数据来源。那时候没人能拿到足够多的真车数据,所以这些数据都有价值。但当真实车辆数据多到要专门建设大规模存储和处理基础设施时,其他替代数据的相对重要性就会被重新评估。

现在机器人领域的情况,和当年自动驾驶初期很像。大家都在提各种替代数据方案,本质是因为真机数据还不够。等真机部署数据足够多之后,这些方案的价值也会被重新评估。

首页图源|企业供图

排版|范馨雅

欢迎交流