【课程笔记】Stanford CS25 V2 - Robotics and Imitation Learning

Video Link: https://www.youtube.com/watch?v=ct4tdyyNDY4

过去两年，由于大语言模型、语音技术、视觉技术的发展，机器人技术的研究思路发生了180度的转变。

机器人基础模型

目前在大量数据上进行大规模模型训练时，通常由两个比较重要的属性：

当然我们可能会思考一个问题，为什么目前还没有机器人领域的基础模型。不像音频、语言、图像等领域，这些领域已经出现了较为通用的基础模型，机器人技术的基础模型还没有人研究出来。

那么如果想要实现机器人的基础模型，可以如何做：

（1）设计强化学习算法

（2）互联网规模的模型扩散

（3）从在线机器人学习转移到离线学习

（1）2016 - 机器人工厂

（2）2020 - 厨房环境

（3）2022

遇到了一些问题，例如在一些场景任务中，成功率已经稳定到了50~70%，一些方法需要非常特定的数据分布，如果策略没有训练过当前的数据，那么任务很可能失败。为了解决这个问题，Google 进行了以下工作

（1）RT-1

主要聚焦于如何扩展模仿学习。

从较高的层面来看，RT-1是一个机器人Transformer，它接受机器人摄像头的视觉输入，以及自然语言指令，仅仅使用transformer进行解码，分离目标物体类别，使用预训练的EfficientNet主干网络得到离散化动作。

（2）SayCan

机器人的技能能够是有限的，大语言模型也是受限制的，他不知道机器人的状态，不知道周围环境。

因此这项工作主要实现让语言模型说机器人的语言。

（3）Inner-Monologue

将环境的动态环境反馈加入到闭环中，也使用语言的API来传达环境中有什么。