AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents

2024年01月23日
  • 简介
    基于语言、视觉,以及最近的动作等多种信息的基础模型革新了利用互联网规模数据进行有用任务推理的能力。然而,训练具有体现式基础模型的一个关键挑战是缺乏与物理世界相关的数据。本文提出了AutoRT系统,该系统利用现有的基础模型在最小人类监督下扩展操作机器人在完全未知场景中的部署。AutoRT利用视觉-语言模型(VLM)进行场景理解和基础,进一步使用大型语言模型(LLMs)提出多样化和新颖的指令,由一组机器人执行。通过利用基础模型的知识来指导数据收集,AutoRT能够有效地推理出自主权和安全性之间的权衡,并显着扩大机器人学习的数据收集。我们展示了AutoRT向多个建筑中的20多个机器人提出指令,并通过远程操作和自主机器人策略收集了77k真实机器人情节。我们实验证明,AutoRT收集的这种“野外”数据显着更加多样化,而AutoRT使用LLMs允许指令跟随数据收集机器人可以与人类偏好对齐。
  • 图表
  • 解决问题
    AutoRT旨在解决训练具有行动能力的机器人所需的现实世界数据不足的问题。
  • 关键思路
    AutoRT利用现有的基础模型,结合视觉-语言模型和大型语言模型,提出了一种系统,可以在几乎没有人类监督的情况下,扩大操作机器人在完全未知场景中的部署。它通过基础模型的知识来指导数据收集,有效地推理自主权和安全性权衡,同时大大扩大了机器人学习的数据收集。
  • 其它亮点
    AutoRT提出了一种新的方法来解决机器人学习中现实世界数据不足的问题,并成功地在多个建筑物中指导20多个机器人执行任务并收集了77k个真实机器人实验数据。该方法收集到的数据更加多样化,使用大型语言模型的指令跟随机器人可以与人类偏好相一致。
  • 相关研究
    最近相关研究包括:1)使用深度强化学习训练机器人执行任务;2)使用视觉-语言模型进行场景理解和指令生成;3)使用自监督学习和迁移学习来解决数据不足的问题。相关论文包括:1)Deep Reinforcement Learning for Robotic Manipulation;2)Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments;3)Unsupervised Learning for Physical Interaction through Video Prediction。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问