惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

博客园 - Franky
N
Netflix TechBlog - Medium
Google Online Security Blog
Google Online Security Blog
月光博客
月光博客
量子位
酷 壳 – CoolShell
酷 壳 – CoolShell
V
V2EX
腾讯CDC
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
博客园 - 聂微东
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
M
MIT News - Artificial intelligence
Vercel News
Vercel News
The GitHub Blog
The GitHub Blog
Hugging Face - Blog
Hugging Face - Blog
博客园 - 【当耐特】
Apple Machine Learning Research
Apple Machine Learning Research
aimingoo的专栏
aimingoo的专栏
博客园 - 三生石上(FineUI控件)
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
MongoDB | Blog
MongoDB | Blog
H
Help Net Security
The Cloudflare Blog
Blog — PlanetScale
Blog — PlanetScale
F
Full Disclosure
G
Google Developers Blog
罗磊的独立博客
Jina AI
Jina AI
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Y
Y Combinator Blog
H
Hackread – Cybersecurity News, Data Breaches, AI and More
J
Java Code Geeks
A
About on SuperTechFans
IT之家
IT之家
大猫的无限游戏
大猫的无限游戏
S
SegmentFault 最新的问题
有赞技术团队
有赞技术团队
GbyAI
GbyAI
雷峰网
雷峰网
T
The Blog of Author Tim Ferriss
The Register - Security
The Register - Security
U
Unit 42
D
Docker
Martin Fowler
Martin Fowler
L
LINUX DO - 热门话题
NISL@THU
NISL@THU
阮一峰的网络日志
阮一峰的网络日志
C
Cybersecurity and Infrastructure Security Agency CISA
博客园_首页
Google DeepMind News
Google DeepMind News

马浩飞丨博客

ROS实现多机话题通信 Cloudflare R2 个人图床 Isaac Sim 机械臂逆运动学控制 ROS2_Rviz2显示URDF模型 ROS2基本命令总结 使用zsh创建更高效的shell环境 Isaac Sim 仿真环境使用简介 Ubuntu设置定时任务 审稿意见撰写流程 Ubuntu 固定USB设备端口名(ttyUSB0->自定义) Git+Github的代码备份与多设备同步 【设备使用】法奥意威 FR5 机械臂 Python 控制 Python识别图片中文字和数字_easyocr 【设备使用】omega.7主手配置与使用方法 【论文笔记】ACT 使用低成本硬件的双手操作模仿学习 HDF5数据文件格式 【仿真实验】robomimic项目复现 Ubuntu与Window双主机共用一套键鼠 Windows与Ubuntu双系统绑定同一个蓝牙设备(无需重新配对)
【课程笔记】Stanford CS25 V2 - Robotics and Imitation Learning
马浩飞 · 2023-12-24 · via 马浩飞丨博客

Video Link: https://www.youtube.com/watch?v=ct4tdyyNDY4

过去两年,由于大语言模型、语音技术、视觉技术的发展,机器人技术的研究思路发生了180度的转变。

机器人基础模型

目前在大量数据上进行大规模模型训练时,通常由两个比较重要的属性:

  • 涌现:当非常简单地事情在小范围发挥作用时,当扩大范围,它的表现会更好,例如更多的数据、更大的模型。
  • 均质化:模型可以组合许多下游任务来实现泛化能力

当然我们可能会思考一个问题,为什么目前还没有机器人领域的基础模型。不像音频、语言、图像等领域,这些领域已经出现了较为通用的基础模型,机器人技术的基础模型还没有人研究出来。

那么如果想要实现机器人的基础模型,可以如何做:

(1)设计强化学习算法

  1. 利用高性能的架构,例如self-attention
  2. 利用比例法则,不仅要扩大模型大小,还有扩展计算,还需要扩大数据集语料库以及标记数量
  3. 数据集大小比数据质量更重要

(2)互联网规模的模型扩散

  1. 生成式模型在语言、编程、视觉、音频等领域已经展现出了涌现的能力,并且一次次超出了我们的预期,这个趋势在可见的未来中还会一直保持下去。
  2. 涌现和加速意味着这些模型可以“自己”变的更好

(3)从在线机器人学习转移到离线学习

  1. 目前的大模型都是在巨大规模的离线数据集上训练完成的

Google Brain 相关工作

过去工作

(1)2016 - 机器人工厂

  1. 强化学习:Google建立了一个包含7个Kuka机械臂的机器人工厂,7x24小时执行抓取动作,进行强化学习训练。
  2. Qt-Opt:Q-学习算法,接受视觉输入的同时进行连续控制。
  3. RL-CycleGan:将房展环境的图像转换为真实的图像,让机器人在显示世界中更好地完成任务。

(2)2020 - 厨房环境

  1. BC-Z:多任务模仿学习
  2. AW-Opt:将强化学习与模仿学习引导相结合

(3)2022

遇到了一些问题,例如在一些场景任务中,成功率已经稳定到了50~70%,一些方法需要非常特定的数据分布,如果策略没有训练过当前的数据,那么任务很可能失败。为了解决这个问题,Google 进行了以下工作

  1. 多任务模仿学习
  2. 使用大规模数据集

近期工作

(1)RT-1

主要聚焦于如何扩展模仿学习。

  1. 使用一年半时间从13个机器人中收集了100k的演示数据,包括700个任务
  2. 使用BC-Z进行训练
  3. 由于基于Transformer的算法在处理图像时,现在还不足以支撑机器人学习中的高频率、实时性要求,因此希望数据集能够理解语言模型。

从较高的层面来看,RT-1是一个机器人Transformer,它接受机器人摄像头的视觉输入,以及自然语言指令,仅仅使用transformer进行解码,分离目标物体类别,使用预训练的EfficientNet主干网络得到离散化动作。

(2)SayCan

机器人的技能能够是有限的,大语言模型也是受限制的,他不知道机器人的状态,不知道周围环境。

因此这项工作主要实现让语言模型说机器人的语言。

(3)Inner-Monologue

将环境的动态环境反馈加入到闭环中,也使用语言的API来传达环境中有什么。

【课程笔记】Stanford CS25 V2 - Robotics and Imitation Learning