- 简介本文介绍了训练现代化具身代理的两种最广泛使用的方法:具有密集奖励的强化学习(RL)和基于人类生成轨迹的模仿学习(IL)。强化学习需要广泛的奖励塑造和辅助损失,并且通常对于长时间任务来说速度过慢且效果不佳。虽然基于人类监督的模仿学习非常有效,但是大规模收集人类轨迹非常昂贵。在本文中,我们展示了在模拟中模仿最短路径规划器可以产生代理,给定语言指令后,这些代理可以在模拟和现实世界中利用仅有的RGB传感器(没有深度图或GPS坐标)熟练地导航、探索和操作物体。这一令人惊讶的结果得益于我们的端到端、基于transformer的SPOC架构、强大的视觉编码器和广泛的图像增强,以及我们训练数据的规模和多样性:收集了约200,000个程序生成的房屋内包含40,000个独特3D资产的数百万帧最短路径专家轨迹。我们的模型、数据、训练代码和新提出的10项任务基准测试套件CHORES将开源。
-
- 图表
- 解决问题本文旨在通过模拟最短路径规划器,使用端到端、基于Transformer的SPOC架构,强大的视觉编码器和大规模的训练数据,训练出能够在模拟和真实环境中,仅使用RGB传感器就能够熟练导航、探索和操作对象的智能体。
- 关键思路本文提出了一种新的强化学习和模仿学习相结合的方法,通过模拟最短路径规划器收集大量训练数据,使用基于Transformer的SPOC架构进行端到端的训练,从而训练出能够在模拟和真实环境中熟练导航、探索和操作对象的智能体。
- 其它亮点本文的亮点包括:使用基于Transformer的SPOC架构进行端到端的训练,使用强大的视觉编码器和大量的图像增强技术进行数据预处理,训练数据规模和多样性都非常大,包含数百万帧的最短路径专家轨迹和数万个独特的3D资产。作者还提供了开源的模型、数据和训练代码,并提出了一个新的10项任务评估基准CHORES。
- 最近在这个领域中,也有一些使用强化学习和模仿学习相结合的方法进行智能体训练的研究,如Behavior Cloning, GAIL等。此外,还有一些研究探索如何使用更少的传感器或更少的人类监督来训练智能体,如使用单目相机进行导航等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流