慣性聚合 高效追蹤和閱讀你感興趣的部落格、新聞、科技資訊
閱讀原文 在慣性聚合中打開

推薦訂閱源

WordPress大学
WordPress大学
M
MIT News - Artificial intelligence
小众软件
小众软件
酷 壳 – CoolShell
酷 壳 – CoolShell
T
Tailwind CSS Blog
T
The Blog of Author Tim Ferriss
Engineering at Meta
Engineering at Meta
Jina AI
Jina AI
Last Week in AI
Last Week in AI
I
InfoQ
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
人人都是产品经理
人人都是产品经理
MongoDB | Blog
MongoDB | Blog
The Cloudflare Blog
月光博客
月光博客
爱范儿
爱范儿
D
Docker
罗磊的独立博客
博客园 - 叶小钗
博客园 - 司徒正美

雷峰网

1.8亿人在小红书读书:图书业在小红书电商营收规模年增超30% | 雷峰网 减重300kg,首搭5nm智驾芯片:2026款乐道L90正式亮相 | 雷峰网 阶跃和千⾥科技官宣战略合作:打造原⽣智驾基座模型,提升物理AI能⼒上限 | 雷峰网 “还债骑手”被强制下线240次:“开始我很反感过劳提醒,影响赚钱” | 雷峰网 石头科技:2025年营收高增56.51%,2026Q1营收增23.31% | 雷峰网 Mythos引爆攻击工业化时代,奇安信:构建三位一体内生安全体系是破解之道 | 雷峰网 曝两家科技大厂争投DeepSeek,估值飙至200亿美元;小米深夜放大招!最强大模型MiMo-V2.5系列发布;微软 Xbox 部门将裁员15% | 雷峰网 RGB-Mini LED电视普及风暴,海信正式发布小墨E5S Pro | 雷峰网 标配8255芯片与CDC,奇瑞试图终结“燃油车无智驾”时代 | 雷峰网 德赛西威也不相信,智驾能让Tier1躺着赚钱 | 雷峰网 找来刘翔做代言人,可能是智己LS8最好的一步棋 | 雷峰网 「中国版Grok上车」分水岭:阶跃交出首份量产答卷 | 雷峰网 百度Create大会双主论坛议程揭晓,多项重磅升级发布将集中亮相 | 雷峰网 泄露用户隐私!曝某AI助手将B用户简历发给A用户;苹果更换CEO原因曝光;微信宣布5国可用微信支付;航旅纵横「崩」了一天,借钱功能却正常 | 雷峰网 一季度交付1200件精益工具,希音深入技术创新提升按需时尚竞争力 | 雷峰网 从“替代”到“重构”:联想开天“1+2+N”如何重写信创AI PC逻辑? | 雷峰网 中山大学郭裕兰团队:数据充足却训练失败,多智能体到底卡在哪丨CVPR 2026 | 雷峰网 上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026 死亡率「99%」的芯片创业淘汰赛,为旌科技为何能活下来? | 雷峰网 清华段岳圻团队论文:从调参数到做控制,文生图迎来一次方法论升级丨CVPR 2026 | 雷峰网 东南大学耿新团队:模型不是不会做,而是被「挤掉了能力」丨CVPR 2026 | 雷峰网 西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026 | 雷峰网 西湖大学张驰团队:从视觉合成到空间理解,视频 AI 正在「转向」丨CVPR 2026 | 雷峰网 21.0975 公里,是人形机器人的里程碑,也是 RISC-V 的新起点 | 雷峰网 独家 | 华为19级天才少年赵立晨离职创业,瞄准具身 Agentic OS 独家 | CMU系⼜诞⽣⼀家具⾝智能公司「Zeno AI」 | 雷峰网 Token消耗量翻10倍才算企业转型及格线?三位产业一线大佬教你用出性价比 | 雷峰网 阿里发布Qwen3.6-Max预览版,登顶最佳国产模型 | 雷峰网 郭达雅加入巨头背后:顶尖AI人才为何向大厂「回流」? | 雷峰网 解决机器人散热困境,华科冷芯高速悬浮泵液冷方案助力荣耀人形机器人“闪电”夺冠 | 雷峰网 智元邓泰华宣布:具身智能行业进入「部署态」 | 雷峰网 独家丨前安克研发总监丁准离职创业,获头部美元基金押注 | 雷峰网 曝DeepSeek V4将于本周发布,梁文锋对外融资20亿;雷军在服务区被堵车里维权?小米徐洁云回应;宇树H1半马被担架抬离赛道丨雷峰早报 | 雷峰网 广州一斗虾赛现场各路选手比拼蒸馏,现场诞生近50个“技能包” | 雷峰网 智元 ×Hitch Open|深耕具身智能,共建全球物理智能学术生态 | 雷峰网 2026广汽科技日重磅发布五大核心技术,以“科技向心”引领智能出行时代 | 雷峰网 一汽大众与卓驭科技的七年协同,交出一份燃油车智能化的成绩单 | 雷峰网 腾讯的长青游戏,今天又进化了一次 | 雷峰网 智己LS8上市:24.98万起售,刘翔站台的这台「最强8系」能打吗? | 雷峰网 全球1100万台出货,追觅打造最聪明的扫地机 | 雷峰网 阶跃率先跑通“中国版 Grok 上车”量产交付!超级 Eva 搭载极氪8X 今起上市 物理AI时代,为什么需要一颗“舱驾融合”芯片? | 雷峰网 逸安启欢迎问界加入,与宝马、梅赛德斯-奔驰携手, 共同推进中国豪华超充网络的发展 | 雷峰网 逐际动力开源 FluxVLA Engine:专为具身智能打造的标准化VLA工程底座 | 雷峰网 独家丨AWS大中华区多位L8高管迎来变动,SA部门负责人代闻离职 头部品牌 “加码”东南亚 泡泡玛特新品在Lazada发售 | 雷峰网 D19起售价21.98万元,零跑能成为9系SUV的“破局者”吗? | 雷峰网 全球首款!进迭时空 RISC-V AI CPU K3 成功适配 OpenHarmony 6.1 4小时闭门会,15位运动科技创业者聊透了哪些「不能公开说」的真相 | 雷峰网 在女性黑客松上,看见AI硬件的另一种可能 | 雷峰网
ICRA 2026|北京大學董豪團隊Imagine2Act:讓機器人“先想象、再動手”,攻克精細家務難題 | 雷峰網
2026-05-27 · via 雷峰网

來源:公眾號“北京大學前沿計算研究中心”

原文鏈接:https://mp.weixin.qq.com/s/IudCZqnBIPFIXtqGwk6Q2Q

論⽂地址:https://arxiv.org/abs/2509.17125

前言:本文是對發表於機器人和自動化領域頂級會議 ICRA 2026 的論文 Imagine2Act: Leveraging Object-Action Motion Consistency from Imagined Goals for Robotic Manipulation 的解讀。該論文由北京大學董豪團隊主導完成。

該研究聚焦家庭服務機器人高精度操作的核心難題,為插花,放盤,疊杯等關係性物體重排任務提供了全新的解決方案。

01

研究背景

關係性物體重排是家庭服務機器人的核心能力之一,典型任務包括“將花插入花瓶”“將盤子放入碗架”“將筆插入筆筒”等。這類任務不僅需要機器人理解“什麼物體應該放在哪裡”的語義關係,還必須滿足精確的幾何約束——例如,盤子必須垂直插入碗架的狹窄槽位,存在微小偏差就可能導致任務失敗。

當前機器人操作的主流方法存在兩大明顯瓶頸:

傳統 3D 模仿學習方法,雖然能夠直接從 RGB-D 觀測映射到機器人動作,但它們通常缺乏對物體間複雜幾何關係的顯式推理能力,只能在隱式空間學習約束,高精度對齊任務中表現極不穩定;

一些方法嘗試利用生成模型生成目標狀態觀測,為策略提供語義幾何先驗,然而這些方法往往直接將生成的物體變換作為機器人動作執行,或者僅將其作為策略的輔助輸入而未建立顯式關聯。由於生成過程不可避免地存在噪聲,直接執行會導致誤差累積,而鬆散關聯則無法有效利用幾何信息。

於是,我們提出了 Imagine2Act——一個將物體的語義幾何約束融入策略學習的 3D 模仿學習框架,旨在增強幾何感知能力,並通過想象物體變換信號的引導實現精確的動作預測。

02

核心方法

ICRA 2026|北京大學董豪團隊Imagine2Act:讓機器人“先想象、再動手”,攻克精細家務難題

如上圖所示,Imagine2Act 的整體架構包含語義幾何約束生成模塊和物體-動作一致性學習模塊兩大核心,整個流程包括在機器人執行前生成想象目標,並在訓練中通過軟監督機制對齊動作與物體變換。

ICRA 2026|北京大學董豪團隊Imagine2Act:讓機器人“先想象、再動手”,攻克精細家務難題

上圖為 Imagine2Act 兩大核心模塊的詳細執行流程圖。

語義幾何約束生成模塊:生成與真實場景對齊的想象目標

這個模塊的核心是基於人類的語言指令,生成一個與實際場景對齊的、包含正確語義幾何關係的目標圖像,再將其轉化為 3D 點雲,為機器人提供高質量的幾何先驗,如上圖左下方所示,整個過程分為三步:

第一步是圖像編輯:如上圖左下方所示,我們首先使用圖像編輯模型(如 GPT-Image),輸入初始觀測圖像與語言指令,生成一幅描繪任務完成場景的圖像。生成圖像與初始觀測保持相同的相機視角,為後續 3D 對齊奠定基礎;

第二步是點雲重建:為了減少生成噪聲,我們確保只修改與任務相關的物體,而保持場景其餘部分不變。具體來說,我們通過分割模型(如 Grounded-SAM)從生成圖像中分割出前景物體(即運動物體和錨定物體),利用 3D 重建模型(如 TripoSR)為前景物體生成點雲。這些點雲編碼了想象中的幾何約束;

第三步是幾何對齊:從初始觀測中估計錨定物體的 6D 姿態,並將生成的前景點雲以該姿態和適當比例變換到世界座標系中。背景點雲則直接從初始觀測中提取,保持不變。最終拼接得到的想象目標點雲既包含了任務所需的語義佈局,又與實際場景在幾何上對齊。

有了想象目標點雲後,我們對它進行投影以獲得相應的想象目標觀測的 RGB 圖和深度圖,進而以對當前觀測數據的處理方式來對想象目標觀測進行特徵提取處理,將其作為模型的額外輸入。

物體-動作一致性學習模塊:讓機器人動作匹配物體變換

如上圖右下方所示,通過想象的目標觀測,我們可以計算將可移動物體從初始姿態移動到想象目標姿態所需的剛體變換。由於末端執行器是物體運動的直接執行器,其軌跡本質上與物體的變換相似,使兩者高度相關。然而,直接將生成物體運動作為末端執行器的作用運動,可能導致生成過程中潛在的誤差,導致誤差累積。因此我們設計了雙重對齊機制:編碼變換 token 與軟姿態一致性損失。

編碼變換 token:通過計算運動物體從初始狀態到想象目標狀態的剛性變換(旋轉矩陣與平移向量),將其編碼為一個緊湊的變換 token。該 token 與視覺、語言、歷史狀態 tokens 一同輸入動作生成模塊,為動作預測提供明確的物體運動先驗;

軟姿態一致性損失:設計了一種閾值化的損失函數,僅在預測的末端執行器運動與物體變換之間的偏差超過容忍閾值時才施加懲罰。具體包括計算預測旋轉與物體旋轉之間的測地距離,以及計算平移的歐幾里得距離,使用 Sigmoid 函數實現平滑懲罰,避免硬約束導致的訓練不穩定。這一設計既利用了物體變換的強信號引導策略,又通過軟監督容忍了生成噪聲與小偏差,防止誤差在動作序列中累積。

03

實驗驗證

為了驗證 Imagine2Act 的效果,我們在仿真環境 RLBench 和真實世界機器人平臺開展了全面實驗,測試任務均圍繞家庭服務機器人的日常家務操作展開,同時設置了 3D Diffuser Actor、Imagine Policy 等主流基線模型進行對比。

仿真實驗:高精度完成家庭物體重排任務

我們在仿真環境 RLBench 與真實世界機器人平臺上進行了全面驗證,並進行了詳細的消融實驗。RLBench 仿真實驗中,我們選取了 7 個具有挑戰性的關係性重排任務,如 Put-Knife、Stack-Wine、Place-Cups 等,每個任務需 100 條演示進行訓練,25 次測試評估。對比基線包括基於 3D 場景表示的擴散策略 3D Diffuser Actor、生成目標點雲並直接作為動作執行的 Imagine Policy,以及基於語言條件點雲 Transformer 的 3D-LOTUS。實驗所涉及的任務類型與驗證維度如下圖所示。

ICRA 2026|北京大學董豪團隊Imagine2Act:讓機器人“先想象、再動手”,攻克精細家務難題

實驗結果顯示,Imagine2Act 在 7 個任務上的平均成功率達到 0.79,顯著優於所有基線模型:相比 3D Diffuser Actor,通過語義幾何約束大幅提升了空間推理精度;相比 Imagine Policy,通過物體-動作對齊機制徹底避免了生成噪聲的直接傳播。

通過系統的消融實驗,我們驗證了各模塊的貢獻。完整模型在變換 token、軟損失和想象點雲都使用的情況下取得了 0.79 的平均成功率。相比之下,當移除想象模塊時,性能下降至 0.67,這證明了語義幾何先驗的有效性。僅使用想象目標生成的配置取得了 0.72 的成功率,與使用真實目標狀態的 0.74 接近,說明我們的生成模塊能高質量逼近真實目標狀態。分別添加變換 token 或軟損失都帶來了性能提升,且二者結合效果最佳,驗證了雙重對齊機制的必要性。這些結果表明,想象目標生成、變換 token 輸入和軟姿態一致性損失共同構成了一個有效的學習框架。

為了進一步測試方法的泛化性,我們還在 RLBench 上額外評估了 5 個鉸鏈物體操作任務,包括關盒子、關抽屜、開微波爐等。Imagine2Act 在這些任務上取得了與 3D Diffuser Actor 相當的性能,證明了其對不同任務類型的適應性。

真實世界實驗:適配真實家庭的噪聲環境

ICRA 2026|北京大學董豪團隊Imagine2Act:讓機器人“先想象、再動手”,攻克精細家務難題

真實世界實驗中,如上圖所示,我們在 Franka Emika 機器人平臺上部署了 Imagine2Act,執行包括疊杯子、關罐子、插花、放盤子等 6 個日常操作任務。

實驗結果顯示,Imagine2Act 在真實世界的平均成功率達到 0.68,遠高於 3D Diffuser Actor 的 0.43,這些結果證明了該框架不僅能解決仿真任務,更能遷移到真實世界的噪聲、不確定性環境中,具備實際部署潛力。

04

總結與展望

Imagine2Act 的核心創新,是讓家庭服務機器人學會 “先想象、再動手”:通過生成與真實場景對齊的想象目標點雲,為機器人提供了豐富的語義幾何先驗,解決了傳統方法缺乏空間推理能力的問題;通過物體-動作一致性學習的雙重對齊機制,在利用生成目標信號的同時避免了生成噪聲的誤差累積,解決了高精度操作的核心難題。

該框架在仿真和真實世界的家庭服務任務中均表現出色,為家庭服務機器人的高精度操作提供了一種可解釋、可泛化的解決方案。未來,我們將進一步優化想象目標生成的效率和精度,適配更多樣、更復雜的家庭服務場景,讓家庭服務機器人能更精準、更智能地完成各類家務,真正走進普通家庭的日常生活。

團隊介紹

實驗室由北京大學前沿計算研究中心長聘副教授董豪指導,團隊專注於機器人視覺,物體操作,語義導航和具身自主決策等領域的前沿技術,致力於為家用、商用和工業場景創建具有成本效益的人形機器人。

雷峰網(公眾號:雷峰網)

雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知