In-Context Imitation Learning via Next-Token Prediction

2024年08月28日
  • 简介
    我们探讨了如何增强下一个标记预测模型,以在真实机器人上执行上下文模仿学习,使机器人在输入阶段提供的上下文信息的解释下执行新任务,而不更新其基础策略参数。我们提出了In-Context Robot Transformer (ICRT),这是一个因果Transformer,可以对感觉运动轨迹进行自回归预测,而不依赖任何语言数据或奖励函数。这种形式使得在测试时无需灵活且无需训练即可执行新任务,通过用由人类远程操作收集的由图像观察,动作和状态元组组成的新任务的感觉运动轨迹提示模型。在Franka Emika机器人上的实验表明,ICRT可以适应由提示指定的新任务,即使在与提示和训练数据都不同的环境配置中。在多任务环境设置中,ICRT在推广到未见任务方面显著优于当前机器人学中最先进的下一个标记预测模型。代码、检查点和数据可在https://icrt.dev/上获得。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图通过在输入阶段提供上下文信息来增强下一个标记预测模型,在真实机器人上执行上下文中的模仿学习,实现对新任务的灵活且无需训练的执行。这是否是一个新问题?
  • 关键思路
    论文提出了In-Context Robot Transformer(ICRT),这是一种因果Transformer,可以在不依赖任何语言数据或奖励函数的情况下对感官运动轨迹进行自回归预测。这种方法使得模型能够在测试时通过提示模型执行新任务,即使在与提示和训练数据不同的环境配置中也能够适应新任务。
  • 其它亮点
    论文的亮点包括:实验使用Franka Emika机器人进行,ICRT能够适应新任务,即使在与提示和训练数据不同的环境配置中也能够适应新任务,ICRT在多任务环境设置中明显优于当前机器人下一个标记预测模型的最新研究。此外,论文提供了代码、检查点和数据,可在https://icrt.dev/上获得。
  • 相关研究
    最近在这个领域中的相关研究包括:Learning to Learn from Demonstrations using Successor Features for Long-Horizon Tasks,Learning to Learn from Demonstrations using Coordinated Behavior,Learning to Learn How to Learn: Self-Adaptive Sampling for Deep Learning,End-to-End Robotic Reinforcement Learning without Reward Engineering。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问