Octo: An Open-Source Generalist Robot Policy

2024年05月20日
  • 简介
    大型预训练于多样机器人数据集的策略有潜力改变机器人学习:不再需要从头训练新的策略,这些通用机器人策略可以通过少量领域数据进行微调,从而广泛适用。然而,要在各种机器人学习场景、环境和任务中广泛适用,这些策略需要处理各种传感器和动作空间,适应多种常用机器人平台,并能够快速有效地在新领域进行微调。在这项工作中,我们旨在为开发适用于机器人操作的开源、广泛适用的通用策略奠定基础。作为第一步,我们介绍了Octo,这是一个基于Transformer的大型策略,它是在Open X-Embodiment数据集中训练的,该数据集是迄今为止最大的机器人操作数据集,包含800k条轨迹。它可以通过语言命令或目标图像进行指导,并且可以在标准消费级GPU上在几个小时内有效地微调到具有新的感官输入和动作空间的机器人设置。在9个机器人平台的实验中,我们证明Octo作为一个多才多艺的策略初始化,可以有效地微调到新的观察和动作空间。我们还对Octo模型的设计决策进行了详细的剖析,从架构到训练数据,以指导未来建立通用机器人模型的研究。
  • 图表
  • 解决问题
    本论文旨在为机器人操作开发开源、广泛适用的通用策略,解决机器人学习中训练新策略的困难问题。
  • 关键思路
    论文介绍了Octo,这是一个基于Transformer的大型通用策略,通过Open X-Embodiment数据集的800k条轨迹进行训练,可以通过语言命令或目标图像进行指导,并可以在标准消费者GPU上在几小时内有效地微调到具有新感知输入和动作空间的机器人设置。
  • 其它亮点
    论文的亮点包括:使用最大的机器人操作数据集进行训练;Octo是一个通用策略,可以通过语言命令或目标图像进行指导;Octo可以在几小时内微调到具有新感知输入和动作空间的机器人设置;论文进行了详细的设计决策消融,以指导未来的研究。
  • 相关研究
    最近的相关研究包括:《One-Shot Object Manipulation with Multi-Modal Dense Object Nets》、《Learning Dexterous In-Hand Manipulation》、《The Open Motion Planning Library》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论