惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

C
Cisco Blogs
博客园 - Franky
N
Netflix TechBlog - Medium
Vercel News
Vercel News
F
Full Disclosure
H
Heimdal Security Blog
H
Hackread – Cybersecurity News, Data Breaches, AI and More
Engineering at Meta
Engineering at Meta
U
Unit 42
Microsoft Azure Blog
Microsoft Azure Blog
Recent Announcements
Recent Announcements
G
GRAHAM CLULEY
aimingoo的专栏
aimingoo的专栏
IT之家
IT之家
Recorded Future
Recorded Future
SecWiki News
SecWiki News
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
Microsoft Security Blog
Microsoft Security Blog
P
Privacy International News Feed
Hacker News - Newest:
Hacker News - Newest: "LLM"
宝玉的分享
宝玉的分享
GbyAI
GbyAI
Forbes - Security
Forbes - Security
博客园_首页
小众软件
小众软件
M
MIT News - Artificial intelligence
博客园 - 三生石上(FineUI控件)
月光博客
月光博客
T
Tenable Blog
J
Java Code Geeks
Hugging Face - Blog
Hugging Face - Blog
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Security Latest
Security Latest
G
Google Developers Blog
D
DataBreaches.Net
WordPress大学
WordPress大学
Attack and Defense Labs
Attack and Defense Labs
S
Security Affairs
NISL@THU
NISL@THU
D
Docker
L
Lohrmann on Cybersecurity
Schneier on Security
Schneier on Security
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
P
Palo Alto Networks Blog
The Register - Security
The Register - Security
I
Intezer
C
CERT Recently Published Vulnerability Notes
The Cloudflare Blog
Y
Y Combinator Blog

雷峰网

1.8亿人在小红书读书:图书业在小红书电商营收规模年增超30% | 雷峰网 减重300kg,首搭5nm智驾芯片:2026款乐道L90正式亮相 | 雷峰网 阶跃和千⾥科技官宣战略合作:打造原⽣智驾基座模型,提升物理AI能⼒上限 | 雷峰网 “还债骑手”被强制下线240次:“开始我很反感过劳提醒,影响赚钱” | 雷峰网 石头科技:2025年营收高增56.51%,2026Q1营收增23.31% | 雷峰网 Mythos引爆攻击工业化时代,奇安信:构建三位一体内生安全体系是破解之道 | 雷峰网 曝两家科技大厂争投DeepSeek,估值飙至200亿美元;小米深夜放大招!最强大模型MiMo-V2.5系列发布;微软 Xbox 部门将裁员15% | 雷峰网 RGB-Mini LED电视普及风暴,海信正式发布小墨E5S Pro | 雷峰网 标配8255芯片与CDC,奇瑞试图终结“燃油车无智驾”时代 | 雷峰网 德赛西威也不相信,智驾能让Tier1躺着赚钱 | 雷峰网 找来刘翔做代言人,可能是智己LS8最好的一步棋 | 雷峰网 「中国版Grok上车」分水岭:阶跃交出首份量产答卷 | 雷峰网 百度Create大会双主论坛议程揭晓,多项重磅升级发布将集中亮相 | 雷峰网 泄露用户隐私!曝某AI助手将B用户简历发给A用户;苹果更换CEO原因曝光;微信宣布5国可用微信支付;航旅纵横「崩」了一天,借钱功能却正常 | 雷峰网 一季度交付1200件精益工具,希音深入技术创新提升按需时尚竞争力 | 雷峰网 从“替代”到“重构”:联想开天“1+2+N”如何重写信创AI PC逻辑? | 雷峰网 中山大学郭裕兰团队:数据充足却训练失败,多智能体到底卡在哪丨CVPR 2026 | 雷峰网 上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026 死亡率「99%」的芯片创业淘汰赛,为旌科技为何能活下来? | 雷峰网 清华段岳圻团队论文:从调参数到做控制,文生图迎来一次方法论升级丨CVPR 2026 | 雷峰网 东南大学耿新团队:模型不是不会做,而是被「挤掉了能力」丨CVPR 2026 | 雷峰网 西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026 | 雷峰网 西湖大学张驰团队:从视觉合成到空间理解,视频 AI 正在「转向」丨CVPR 2026 | 雷峰网 21.0975 公里,是人形机器人的里程碑,也是 RISC-V 的新起点 | 雷峰网 独家 | 华为19级天才少年赵立晨离职创业,瞄准具身 Agentic OS 独家 | CMU系⼜诞⽣⼀家具⾝智能公司「Zeno AI」 | 雷峰网 Token消耗量翻10倍才算企业转型及格线?三位产业一线大佬教你用出性价比 | 雷峰网 阿里发布Qwen3.6-Max预览版,登顶最佳国产模型 | 雷峰网 郭达雅加入巨头背后:顶尖AI人才为何向大厂「回流」? | 雷峰网 解决机器人散热困境,华科冷芯高速悬浮泵液冷方案助力荣耀人形机器人“闪电”夺冠 | 雷峰网 智元邓泰华宣布:具身智能行业进入「部署态」 | 雷峰网 独家丨前安克研发总监丁准离职创业,获头部美元基金押注 | 雷峰网 曝DeepSeek V4将于本周发布,梁文锋对外融资20亿;雷军在服务区被堵车里维权?小米徐洁云回应;宇树H1半马被担架抬离赛道丨雷峰早报 | 雷峰网 广州一斗虾赛现场各路选手比拼蒸馏,现场诞生近50个“技能包” | 雷峰网 智元 ×Hitch Open|深耕具身智能,共建全球物理智能学术生态 | 雷峰网 2026广汽科技日重磅发布五大核心技术,以“科技向心”引领智能出行时代 | 雷峰网 一汽大众与卓驭科技的七年协同,交出一份燃油车智能化的成绩单 | 雷峰网 腾讯的长青游戏,今天又进化了一次 | 雷峰网 智己LS8上市:24.98万起售,刘翔站台的这台「最强8系」能打吗? | 雷峰网 全球1100万台出货,追觅打造最聪明的扫地机 | 雷峰网 阶跃率先跑通“中国版 Grok 上车”量产交付!超级 Eva 搭载极氪8X 今起上市 物理AI时代,为什么需要一颗“舱驾融合”芯片? | 雷峰网 逸安启欢迎问界加入,与宝马、梅赛德斯-奔驰携手, 共同推进中国豪华超充网络的发展 | 雷峰网 逐际动力开源 FluxVLA Engine:专为具身智能打造的标准化VLA工程底座 | 雷峰网 独家丨AWS大中华区多位L8高管迎来变动,SA部门负责人代闻离职 | 雷峰网 头部品牌 “加码”东南亚 泡泡玛特新品在Lazada发售 | 雷峰网 D19起售价21.98万元,零跑能成为9系SUV的“破局者”吗? | 雷峰网 全球首款!进迭时空 RISC-V AI CPU K3 成功适配 OpenHarmony 6.1 4小时闭门会,15位运动科技创业者聊透了哪些「不能公开说」的真相 | 雷峰网 在女性黑客松上,看见AI硬件的另一种可能 | 雷峰网 Plaud 爆火后,YoooClaw 要改写 AI 硬件的剧本 黄仁勋:DeepSeek在华为芯片上发布「很可怕」;抖音集团副总裁辟谣郭达雅亿元年薪入职字节;五角大楼与通用、福特等汽车制造商讨论造军火 | 雷峰网 正式官宣!佑驾创新与荣耀(HONOR)达成合作,以“无人车+机器人”打通全链路无人化闭环 | 雷峰网 解耦性能与厚重,英特尔AI高静Plus正在重写游戏本定义 | 雷峰网 独家丨Somnia Lab 完成千万美元天使轮融资,瞄准人机关系入口与万亿级具身情感生态 | 雷峰网 腾讯发布并开源混元世界模型 2.0,一句话造出3D世界,兼容游戏引擎! | 雷峰网 阿里发布世界模型HappyOyster,与谷歌Genie3竞争 | 雷峰网 从「集体暴跌」到「双轨分化」:一篇论文误读如何撕开DDR真实行情? | 雷峰网 格力高管炮轰友商被狂怼:又当又立!「真铜实料」这四字不姓格;美国将退还超1万亿元关税;品牌GMV高速增长,速卖通将成品牌出海全新主场 | 雷峰网 全球线上首发!辉瑞新一代减重药先维盈®开启预售服务,美团买药又下一城 | 雷峰网 傲基「生死局」:绝地反杀与盈利迷途 | 雷峰网 阿里ATH发布AI开发工具Meoo,已打通阿里云核心产品 | 雷峰网 美团闪购升级闪电仓供应链服务平台:向全行业商家开放即时零售供应链基建 | 雷峰网 阿里云连续5年稳居游戏云市场份额第一! | 雷峰网 与阿里成立合资公司后,新世界旗下Gmarket商品交易额(GMV)实现双位数增长 | 雷峰网 度小满发布DXMClawPay 面向Skill开发者提供一站式支付接入方案 | 雷峰网 滴滴自动驾驶全球化布局加快,年内在阿联酋开展试点 | 雷峰网 金立创始人刘立荣消失8年后最新动向:疑在印尼卖家具;月薪3万,DeepSeek聘人去内蒙草原守机房;比亚迪坪山园区大火,公司回应火势已扑灭 | 雷峰网 水下绞杀:清洁机器人渠道里的生意与生死 | 雷峰网 墨腾报告:东南亚电商平台成交额五年翻三倍 三大平台瓜分万亿市场 | 雷峰网 火山引擎:Seedance 2.0 API 服务全面开放 | 雷峰网 中远海运特运X火山引擎:“数字员工”驶向智慧航运新蓝海 | 雷峰网 重新认识具身行业,从自变量的这封邀请函开始 | 雷峰网 做了5年3D打印机,我发现了世界模型的Scaling Law | 雷峰网 别克×火山引擎:至境E7行业首发搭载豆包大模型最新版 | 雷峰网 强强联手,追觅牵手阿里速卖通,将在海外加大投入 | 雷峰网 推理卡毛利率下滑超7%,天数智芯「降价换量」的买卖值不值? | 雷峰网 明日新程完成连续两轮融资,领跑Harness群体多智能体赛道 | 雷峰网 「作弊」内幕曝光!3DMark回应将某知名国产手机除名;李想朋友圈炮轰东风日产恶意拉踩,后者高管回应;美的空调又发行业首创产品 | 雷峰网 50万起步的蔚来ES9,能否站稳高端? | 雷峰网 汽车行业已在阿里云上使用超10万卡“真武”PPU研发智驾 | 雷峰网 百度智能云联合多家头部具身智能企业,打造具身智能数据超市 | 雷峰网 从汽车到物理 AI:何小鹏眼中的智能汽车下半场 | 雷峰网 首个跑通端到端闭环的全模态安全脱敏的龙虾盒子,无问芯穹InfiniClaw Box让本地龙虾也能放心用! | 雷峰网 当参数不再决定胜负,AI时代的企业级SSD靠什么「赢」?|MemoryS 2026 | 雷峰网 独家丨继大疆押注后,智能派再获数亿元融资,或与拓竹正面硬刚 | 雷峰网 阿里视频生成大模型Wan2.7登顶DesignArena榜单 | 雷峰网 KV Cache需求暴涨32倍,AI如何重写存储产业链的「旧分工」?| MemoryS 2026观察 | 雷峰网 微软小冰,生不逢时 | 雷峰网 豆包APP实时语音通话升级全双工模型 抗干扰与低时延能力提升 | 雷峰网 中国充电联盟与万勋科技联合发布《中国新能源汽车自动充电用户行为洞察报告》加速自动充电规模商用 | 雷峰网 继“同事.skill”走红,周鸿祎回应“把自己炼成AI分身”:这才是数字分身的正确未来 | 雷峰网 章鱼动力获得新加坡顶级风投 K3领投的数亿元投资 | 雷峰网 港中文薛天帆团队:实现 4K 全景视频生成,普通视频也能「长出空间」丨CVPR 2026 | 雷峰网 独家丨前大疆T4悍将谢博文:从具身机器人转战桌面CNC,深圳再启「无限工坊」 | 雷峰网 2026淘宝直播三大主线:提效新品,造优质主播差异化,增优质内容曝光 | 雷峰网 阿里云百炼上线Agent记忆库,让「龙虾」应用更懂用户 | 雷峰网 百度官宣!Create2026百度AI开发者大会定档5月13至14日 | 雷峰网 印度禁止中国大陆产摄像头监控:花高价大批替换,国产厂商回应;传宇树科技与阿里达成出海战略合作;DeepSeek上线专家模式 | 雷峰网 20分钟破1000万!首日破3000万!创想三维2026全球3D打印类目众筹王者!AI+生态双向助推,3D打印布道者重新定义3D打印生态! | 雷峰网
对话它石智航丁文超:具身智能,如何迈进「2.0时代」?| ICRA 2026 | 雷峰网
2026-06-15 · via 雷峰网
对话它石智航丁文超:具身智能,如何迈进「2.0时代」?| ICRA 2026
基座模型、数据飞轮与末端执行缺一不可。

    作者丨高景辉

    编辑丨马晓宁

2026 年 6 月的维也纳,ICRA展厅里挤满了来自全球的机器人公司,三年前还在 PPT 上展示概念的具身智能,如今已经变成了满地跑的人形机器人。

但热闹之下,焦虑正在蔓延。当下的机器人虽然能跑能跳,但依然难以进入真实场景创造价值,形成技术和商业的闭环,其所需要的模型、硬件和数据能力,似乎也只有为数不多的企业具备。以至于业内的感受是,当下大多数的具身智能,都还停留在“1.0时代

那么,具身智能要如何进入“2.0时代,实现阶段性的突破呢?

带着这个问题,雷峰网(公众号:雷峰网)·AI科技评论来到了 ICRA 2026 的现场,试图从全球具身智能领域的顶尖学术成果和头部企业中找到答案。

在这样的背景下,它石智航提供了一个值得观察的样本。作为两个月前刚完成中国具身智能最大单笔融资的明星企业,相比单独展示某个demo,它石智航选择对世界强调一套完整链路:从真实人类数据的采集,到模型侧成果AWE 3.0,再到此次正式首秀的灵巧手,与机器人本体复杂操作的执行。

这也让问题进一步聚焦:人形机器人要真正创造价值,比的已不是单一的长板,而是面面俱到的全栈能力?

为了回答这个问题,AI科技评论在 ICRA 2026 现场与它石智航首席科学家丁文超博士进行了一次深度交流,试图从最顶级的这批从业者口中,找到具身智能通往2.0时代的钥匙。

对话它石智航丁文超:具身智能,如何迈进「2.0时代」?| ICRA 2026

对话它石智航丁文超:具身智能,如何迈进「2.0时代」?| ICRA 2026

01

具身智能进入2.0时代,离不开工程化能力

AI科技评论:它石这次在 ICRA 上会带来模型、灵巧手及相关数采方案,为何选择这个时间点进行系列成果发布?

丁文超:主要有两方面原因。第一是行业规律,物理 AI 行业中往往会在关键技术积累到一定阶段后,迎来一波技术爆发,它石智航从成立到此次 ICRA,也基本走到了这样一个阶段,今年年中除 ICRA 外,我们还有其他成体系的对外展示规划,技术状态也已到位。

第二是 ICRA 是全球综合规模、含金量和技术扎实程度都属旗舰级的会议,受众覆盖大众,业界和学术界专家学者参与度高,国内赞助商均为头部企业,是很好的国际化展示窗口。当然不止是ICRA,后续几个节点我们也有相关发布规划。

AI科技评论:现在有人将具身智能分为 1.02.0 时代,您认为出现这种区分的原因是什么?两个时代的本质区别在哪里?

丁文超:核心是技术范式的改变。具身智能大致分为几个阶段:首先是萌芽期,2023 年初到 2024 年,行业对具身智能的落地场景和实现方法尚不明确,企业主要做两件事,一是造本体,当时涌现出了大量本体公司;二是智能层面方法论不明晰,出现了 ACTDP 等小模型。

接着是具身智能 1.0 时代,以 2024 年为代表,VLA 范式进入具身及自动驾驶等领域,该范式以遥操作为核心数据采集方法,以大模型为骨干网络加动作的,实现一定泛化能力。这一时代催生了首批大脑企业,大家同质化地建设数据采集工厂、售卖机器人本体作为数采设备、训练 VLA 模型。但 1.0 时代存在明显问题:一是遥操作依赖限定场景的数据获取,无法深入千行百业;二是简单拼接 VLM 的模型架构并非根本解法,VLM 的泛化能力并未真正迁移到机器人上,行业对此较为失望。

2025-2026年进入具身智能2.0 时代,包括它石在内的公司开始探索更加scalable 的数据采集方式和更通用的模型范式。2.0 时代有两大核心特征:一是以 Human-centric/Ego-centric 为核心的数据范式爆发,2026年被称为无本体数据采集元年;二是以World Action Model 世界动作模型为核心的模型范式爆发,其泛化性和可扩展性较上一代有明显提升。

未来具身还会迎来 3.0 时代,当前 2.0 时代主要在吸收预训练红利,3.0 时代将引入以世界模型为驱动的后训练能力,让具身智能同时具备泛化能力和场景生产力。每个时代都会催生新的技术范式和对应团队。

AI科技评论:部分企业仍停留在 1.0 时代,他们卡在哪一步?是数据问题吗?

丁文超:短期来说是范式转变的难度。有一个反常识的点,尽管 Human-centric/Ego-centric 理念看似深入人心,但不少人仍对此持质疑和观望态度。这种状态在自动驾驶端到端技术推广早期也出现过,当时很多人质疑其安全性、可解释性,可能只有被市场倒逼时才会转向。

AI科技评论:它石为何能快速进入 2.0 时代?

丁文超:核心有两点。第一是坚持第一性原理思考,这听上去很简单,但其实蛮难的。在 2024 年底 VLA 和遥操作火热时,我们就开始思考如何进一步 scale up,不受外部主流技术路线影响。

第二是极强的工程化能力,目前很多企业开始做 Human-centric/Ego-centric,但还未进入深水区,而我们2025 年就已投入大量精力迭代数采设备,从零到一设计制造了一套可穿戴数采设备SenseHub,打通了适用于无本体数据的模型训练和部署范式,并在本体上优化到极致。这两点是我们能提前布局并取得成果的关键。

AI科技评论:今年被很多人称为具身智能商业化元年,2.0 时代也很看重商业闭环能力,你们在商业化和真实场景应用方面有哪些进展?

丁文超:具身公司容易陷入两个极端,一是布局过多场景,分散注意力,拖慢基础模型迭代速度;二是不落地,只专注刷模型,这两种都无法形成良性循环。

其实参考大模型的商业化经验,大模型理论上可覆盖千行百业,其中 ROI 最高的是 Vibe coding,而这项能力还能反向解锁更多场景。具身智能目前也处于类似状态,在通用模型爆发前夜,既需要保持通用模型的持续竞争力,也要聚焦核心落地场景。

我们目前聚焦线束柔性装配场景,这个场景需要将柔性线束以毫米级精度插入孔位,完成长程连续的布线、插接及缠胶等工序,相当于制造汽车的 “血管。我们现在的商业化的进展还不错。

而之所以选择该场景主要有三点考量:一是单场景用工需求量大,避免了部分场景需求分散、设备用量少的问题;二是属于柔性制造且是长程任务,技术门槛高,同质化竞争少;三是能反向推动基础模型迭代。

AI科技评论:上次在 AWE 上看到了你们的线束演示,和这次 ICRA 现场展示的有何不同?

丁文超:这次现场除了会展示线束子任务,还会展示多个其他任务,体现模型的泛化能力。和上次 AWE 展示不同,本次会展示线束长程任务,让模型端到端连续完成多根线的抓取、插接操作,过程中可自主纠错、自主适应,每根线的插入精度达到亚毫米级。

对话它石智航丁文超:具身智能,如何迈进「2.0时代」?| ICRA 2026

对话它石智航丁文超:具身智能,如何迈进「2.0时代」?| ICRA 2026

02

如果具身智能存在 scaling law,一定是由原生基座模型涌现出来的

AI科技评论:什么样的模型是好的模型?

丁文超:好的模型核心特点是要足够简单,只有简单的架构才容易规模化。好模型的架构清晰直接,但能消化各类数据。数据处理和模型部署的工程化可以复杂,但模型结构本身要简单直接。

对具身模型来说,这个领域其实没有新鲜事。VLA 模型的本质是大语言的 scaling law 被验证后,行业将 VLM 的泛化能力迁移到具身领域的尝试,但其核心问题是真正可规模化的部分与实际场景脱节。VLA 的训练数据分为两类,一类是易规模化的传统大模型数据,另一类是极少的机器人执行任务数据,两者严重不对等。所谓 VLA 的泛化能力其实是 VLM 的能力,并未真正迁移到机器人上,在全新场景中,VLA 仍需通过遥操作采集动作数据微调动作头部才能运行。

当前世界模型成为热点,核心是将视频预测模型应用于具身智能,视频预测模型本身具备 scaling law,相比 VLA 有两大优势:一是统一了跨本体问题,不挑视角,能吸收来自人或机器人的各类视频和动作数据,缩小了人与机器人任务数据的差距;二是放松了对现场遥操作数据的依赖。但世界模型仍是将视频模型能力迁移到具身领域,并非最优解。

目前行业头部公司都在追求训练具身原生基座模型,即从数据采集到模型训练、预测、推理全流程贯穿语言、视觉、动作三种模态,吸收千行百业的数据。如果具身智能存在 scaling law,一定是由原生基座模型涌现出来的。

我们的 AWE 模型全称是 AI World Engine,本质是以 AI 为驱动的世界引擎。仿真器难以规模化,而用数据学习的世界模型能同时告知未来的动作和动作的后果,具备极强的可扩展性,其终局是成为具身原生基座模型。

AI科技评论:你们的模型相比其他世界模型和之前的 VLA,在实际执行任务时有什么优势?线束任务的出色效果是如何实现的?

丁文超:核心优势体现在数据和训练范式两个点上。第一,我们的无本体采集数据质量远超行业平均水平。很多企业低估了数据部署到机器人上的难度和精度要求,人作为灵活的本体,需要轻量且高精度的采集设备,我们自研的数采设备能获取高质量的人的末端动作数据,在数据多样性和动作精度上优势明显。

第二,我们采用了独特的技能转换训练范式。预训练阶段吸收大量人类数据后,在特定场景的后训练阶段,我们摒弃了遥操作采集数据的方式,因为遥操作容易引入抖动等噪声数据,纯人类数据训练反而更干净简洁。

模型精度的提升需要全流程打磨,从数据采集、动作标签增值、模型训练到部署,每个环节都存在技术难点。

AI科技评论:这次 ICRA 现场它石展示了亚毫米级线束操作和打包任务,这两个任务分别有哪些技术难点?

丁文超:两个任务的难点差异明显。线束任务的核心难点是动作精细度要求极高,需要在操作柔性物体的同时达到亚毫米级精度。该任务对数据的稳定性要求极高,因为模型是端到端的,数据中的瑕疵会直接映射为模型的瑕疵。

打包等其他泛化任务的精度要求为毫米级或亚厘米级,核心难点是应对动态变化的任务场景,考验模型的自主纠错和自主恢复能力。这种能力只有在训练数据和任务的多样性、量级达到一定程度时才会涌现,我们本次展示的不同任务正是针对性体现模型不同层面的能力,现场还会设置互动任务,模型可克服人为扰动完成操作。

对话它石智航丁文超:具身智能,如何迈进「2.0时代」?| ICRA 2026

AI科技评论:行业普遍担心世界模型的幻觉问题会导致严重后果,你们是如何解决这个问题的?

丁文超:如果直接将 video prediction(视频预测)引入世界模型,最常见的幻觉问题是穿模,比如模型视野中被抓取的物体突然消失,导致动作策略异常。

我们解决该问题的核心是对 3D 隐空间进行建模。现有世界模型普遍缺乏长时记忆,只有短时的像素到像素预测能力,而对空间的理解需要沉淀下来的长时信息。我们的模型在预训练阶段针对性强化了空间感知建模,在模型工作空间内基本能实现极强的一致性,这是 AWE 模型的特色之一。

AI科技评论:在真实环境中,有哪些机制能保障模型工作的安全性和可靠性?

丁文超:主要有二层保障机制。第一,训练模型自主从错误中恢复的能力,训练阶段会特意加入相关数据进行针对性训练。第二,搭建完整的数据闭环体系,这也是从自动驾驶领域借鉴的经验。模型始终会犯错,关键是能回收失败案例的数据,通过快速的数据闭环挖掘正确数据和故障恢复数据,持续迭代模型。目前具身行业的数据闭环完备程度普遍低于端到端自动驾驶,我们正在加速搭建这套体系,实现模型安全性和可靠性的渐进式提升。

对话它石智航丁文超:具身智能,如何迈进「2.0时代」?| ICRA 2026

03

数据并非越多越好,重点是高质量数据

AI科技评论:你们很早就提出了以人为中心的数据范式,为何从一开始就押注这条路线?对于遥操作、仿真合成、UMI等其他数据采集方式您又是如何看待的?

丁文超:因为在我们的判断中,其他方式都无法支撑通用具身基础模型的规模化发展。

遥操作仅适合后训练,不适合预训练和规模化,无法走向通用具身基础模型。

仿真数据仅在局部简单任务中有价值,比如局部运动仿真,能模拟全身运动和环境的简单接触交互,但无法模拟真实世界的复杂交互,不具备可扩展性。

UMI更多是科研态的方案,能通过单末端完成部分任务,为规模化提供科研牵引,但并非完整的系统,无法真正实现规模化。

我们自研的数采套件综合考虑了以上所有因素,具备三大特点:一是兼容多种采集模式,支持纯头带、头带加手套、头带加夹爪等组合;二是所有传感器均实现高精度时空同步,满足部署态要求;三是动作精度高,配套自动化数据管线可恢复动作和场景语义,且设备便携,能以人为中心获取各行各业的数据。

对话它石智航丁文超:具身智能,如何迈进「2.0时代」?| ICRA 2026

AI科技评论:行业存在仿真和真机数据配比的争论,你们是否有明确的配比?

丁文超:目前行业基本共识是用 Human-centric 数据做预训练,但用仿真做后训练并非好选择,因为仿真器存在太多人工痕迹,适合做评测,无法支撑模型的持续自我提升。

数据配比需根据任务精度要求调整:对于线束这类精度要求极高的任务,基本采用全人类数据,因为只有人能达到对应的精度;对于亚厘米级精度的任务,可加入部分机器人数据。理想状态下,通用模型用 50 万小时人类数据做预训练,单个任务仅需 1 小时左右的单任务数据即可完成适配。

AI科技评论:你们目前的数据积累进度如何?数据量增加是否会让模型能力提升更快?

丁文超:我们仍在朝着百万小时有效数据的目标推进。排除高度重复的无效数据后,我们每日获取的丰富多样的有效数据规模处于行业 top1

随着数据量增加,模型能力提升速度的确会明显加快,这也是我们计划在 2026 年中进行系列发布的原因,预计 2026-2027 年具身智能在操作侧会取得巨大进步。

AI科技评论:以后会不会发现实际需要的数据并没有那么多?

丁文超:数据并非越多越好。低质量的纯 ego 数据会越来越便宜、越来越平权,只能作为打底数据让模型具备基本认知,类似大模型的通用语料。互联网上的海量视频数据并未催生出通用具身智能,也证明了纯低质量数据的局限性。

而高质量的场景化数据价值会持续凸显,这和大模型的发展趋势一致,未来数据的竞争核心是高质量数据而非数据总量。

AI科技评论:数据跨境和隐私安全是第三方数采公司关心的重点,您认为未来国内外数据是否会互通?

丁文超:未来国内外数据不互通的可能性较大,数据的流通性和场景高度相关。如果企业有海外业务,需要在当地合规、合法、符合隐私政策地获取数据。

对话它石智航丁文超:具身智能,如何迈进「2.0时代」?| ICRA 2026

04

好的灵巧手要“手脑一体”,满足模型的部署需求

AI科技评论:数据与硬件存在绑定关系,这是咱们自研硬件的原因之一吗?这次ICRA 亮相的灵巧手有何特点?

丁文超:是的,很多公司低估了外采数据的难度,传感器配置的差异会大幅降低外采数据对模型的收益。同时,硬件是产品交付的核心,仅提供大脑方案无法形成完整产品。

灵巧手从技术路线上分为低自由度(11 自由度及以下)和高自由度(典型为 21 自由度)两类,低自由度多采用连杆式,高自由度以直驱 / 准直驱为主。高自由度技术可向下兼容低自由度,反之则不行。

高自由度灵巧手又分为绳驱和准直驱两条路线,优势是出力大,但一致性差,需动态调节且依赖新材料突破;我们采用准直驱方案,核心挑战是精密制造,需要在极小体积内集成 21 个自由度,同时平衡减速比、灵活性和负重,是硬件、软件、算法的全栈挑战。

目前能做到 20 自由度以上准直驱灵巧手的公司极少,同时具备高自由度灵巧手和对应模型的公司更是屈指可数。

AI科技评论:在你看来,一个好的灵巧手最需要什么特质?

丁文超:能满足模型部署的需求。比如在实际部署时会有很多执行的 gap,所以我们做了一些针对性设计,比如从人的 data description 里面去做统计,看人动作的分布,从而反向推导我们硬件,比如关节减速比是多少,电机的转速是多少,所以才有了这样1:1的设计。

就像 locomotion 领域越做越类人一样,要考虑人的很多的质量、惯量、运动习惯,这样最后硬件和数据间的 gap 才能最小。

AI科技评论:这次 ICRA 上,它石反复提到 DexHand 不是单纯的末端执行器,而是一只有脑子的手。这个有脑子具体体现在哪里?

丁文超:我们理解的灵巧手,不应该只是一个能张合、能抓取的硬件。真正进入具身智能阶段后,手需要和数据、模型、物理世界连接起来,才能从会运动走向会操作

DexHand有脑子,首先体现在它接入了AWE 3.0 通用具身大模型。也就是说,灵巧手不是孤立执行指令,而是能够在模型的感知、理解和决策下,结合当前任务和接触状态调整动作。它背后是一套从Human-centric数据采集、AWE模型理解,到DexHand物理执行的手脑一体闭环。

对话它石智航丁文超:具身智能,如何迈进「2.0时代」?| ICRA 2026

AI科技评论:高自由度灵巧手在线束等任务中有哪些独特优势?最后一厘米的问题是如何突破的?

丁文超:高自由度灵巧手能大幅提升任务执行效率,统计显示,用灵巧手完成任务的速度是夹爪的 3 倍,能显著提升生产效率。同时,灵巧手作为统一末端执行器,可以完成夹爪无法实现的复杂操作,避免了针对不同任务设计专用末端的问题,具备极强的硬件泛化性。

我们将灵巧手设计为 21 自由度,是因为21 自由度为硬件可承受极限内最贴近人手的配置,能最大化提升抓取和操作的泛化能力。

AI科技评论:你们对灵巧手做了大量摩擦测试,这些测试对产线部署有什么帮助?

丁文超:摩擦测试主要覆盖两个层面的耐久度验证。第一是关节耐久度,早期高自由度灵巧手普遍存在电机易烧毁的问题,关节故障会导致算法迭代速度大幅变慢,我们针对性优化了关节设计,保证其持续稳定运行。第二是指尖耐久度,灵巧手的触觉硅胶指尖易磨损,我们发布过大型触觉数据集,深知触觉传感器磨损对数据采集和模型性能的影响,因此对指尖材料和结构做了大量测试和优化。

对话它石智航丁文超:具身智能,如何迈进「2.0时代」?| ICRA 2026

AI科技评论:主要部署在哪些场景?

丁文超:像很多需要非常精细的场景,如电线缠胶等长程任务,这样只需更换末端就能胜任。所以灵巧手就是一个很好的选择。

AI科技评论:你们的灵巧手开放预订了吗?价格怎么样?

丁文超:确实有很多客户想要预订,ICRA现场也一直都有人来问我们什么时候卖,卖多少钱(笑)。不过我们希望先把它迭代到一个非常稳定的工程化水平,再对外集中公布这些信息。

对话它石智航丁文超:具身智能,如何迈进「2.0时代」?| ICRA 2026

05

TacForeSight:将模型从被动修正升级为主动预判

AI科技评论:这次 ICRA 会发布的 TacForeSight 成果,其创新点在哪里?

丁文超:TacForeSight是我们年初触觉世界模型及数据集工作的延续。灵巧操作的本质是通过接触改变世界,接触是核心,而触觉是唯一能直接感知接触的模态。我们此前的工作证明,触觉与视觉融合的世界模型能实现高频的动作微调,比纯视觉环路的修正更直接、更快。

TacForeSight的核心创新是将模型从被动修正升级为主动预判。此前的模型只能在出现滑动、偏移等问题后被动修正,而基于视触觉世界模型,我们的模型能提前预判潜在问题并主动微调动作。比如抓取滑的物体时提前加大力度,在光滑地面行走时提前收力,操作姿态不佳时提前调整。

基于该技术,我们实现了柔顺刷卡、精细试管操作、动态擦花瓶等演示,未来可应用于抛光打磨、洗车等所有与接触相关的场景。我们认为触觉是未来灵巧操作的核心,会持续深化相关研究。

对话它石智航丁文超:具身智能,如何迈进「2.0时代」?| ICRA 2026

AI科技评论:演示的任务设计有哪些考量?我们看到成功率超过80%,这在行业里处于什么水准?

丁文超:我们希望任务尽可能多一些,也更贴近于生活的实际场景。这个成功率在触觉的 paper 里,应该是 SOTA

AI科技评论:具体到场景,这个工作有什么应用?

丁文超:将来有一些柔性的、高精度的这种操作,是非常需要触觉的,因为视觉的反应频率只有30赫兹或60赫兹,但是你会发现你做非常精细的 manipulation 的时候,你要的反应频率就需要上百赫兹,而触觉是唯一一个在末端能够提供这么高频反馈的模态。

AI科技评论:这次 ICRA 它石还有哪些入选成果可以分享?未来的重点工作是什么?

丁文超:还有一项关于空间感知与动作策略融合的成果。现有模型对视角变化非常敏感,如果采集数据的视角有 30 度扰动时,操作成功率会下降。我们将空间基础模型融入动作策略,让模型具备新视角的假想能力,大幅提升了视角变化下的操作成功率。

未来我们的核心工作有两点:第一是持续推进规模化,深化数据和模型的打磨,放大 scaling 效应;第二是打穿垂直场景,以线束场景为核心,逐步拓展更多场景。随着模型泛化能力的提升,新场景的工程化周期会大幅缩短。

AI科技评论:我们看到ICRA现场有不少国内的年轻学者,它石和学术界有什么合作吗?

丁文超:我们今年ICRA发表了9paper,数量也是在具身企业中名列前茅;并且和清华、交大、复旦都有人才合作项目,未来肯定会再扩展到其他高校。今年 ICRA 我们还举办了人才晚宴,吸引各个学校的最 top 的学生。

AI科技评论:最后聊聊行业,您认为阻碍具身智能商业化落地的最大因素是什么?

丁文超:核心瓶颈是模型的泛化性和吞吐率,吞吐率等于成功率乘以任务完成效率,这两个指标决定了机器人能否替代人工产生实际生产力。

AI科技评论:明年具身智能行业可能出现哪些变化?

丁文超:第一,机器人的操作能力会取得重大突破,核心体现为 Zero-Shot  Few-Shot 能力的提升,在新场景中能快速展示出基础能力。第二,行业竞争烈度会大幅上升,两极分化加剧,规模化需要更大的资金投入和决心,头部效应会越来越明显。

AI科技评论:假如未来具身智能进入 3.0 时代,需要达到什么标准?

丁文超:2.0时代的核心是泛化,能在新场景达到80% 左右的成功率;3.0时代的核心是机器人能在多个不局限于单一领域的任务中,表现出超过人类的能力,虽未达到物理 AGI,但在多个细分任务上具备显著优势。

去哪看 ICRA 核心【演讲/论文】详解?

为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 ICRA 2026 的完整干货,雷峰网已全面上线【ICRA 2026 深度专区】

专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方记者的第一手会议动态。

扫描下方二维码,或点击阅读原文关注专区。

对话它石智航丁文超:具身智能,如何迈进「2.0时代」?| ICRA 2026

与全球 8000 名顶尖大脑同步呼吸,抢先透视具身智能的下一个五年!

雷峰网原创文章,未经授权禁止转载。详情见转载须知