Contrastive Imitation Learning for Language-guided Multi-Task Robotic Manipulation

2024年06月14日
  • 简介
    开发能够执行各种操作任务的机器人,根据自然语言指令和对复杂真实世界环境的视觉观察进行指导,仍然是机器人领域的一个重大挑战。这种机器人代理需要理解语言命令,并区分不同任务的要求。在这项工作中,我们提出了Sigma-Agent,这是一个用于多任务机器人操作的端到端模仿学习代理。Sigma-Agent采用对比模仿学习(对比IL)模块来加强视觉语言和当前未来表示。我们介绍了一种有效且高效的多视图查询Transformer(MVQ-Former),用于聚合代表性语义信息。在18个RLBench任务的不同设置下,Sigma-Agent显示出比最先进的方法显着的改进,在10次和100次演示训练中平均超过RVT 5.2%和5.9%。Sigma-Agent还在5个真实世界操作任务中以单一策略实现了62%的成功率。代码将在接受后发布。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决机器人多任务操作中的语言指令和视觉观察的问题,并提出了一个端到端的模仿学习代理Sigma-Agent来解决这个问题。
  • 关键思路
    Sigma-Agent采用对比模仿学习模块来加强视觉语言和当前未来表示,引入了有效且高效的多视图查询Transformer(MVQ-Former)来聚合代表性语义信息。
  • 其它亮点
    在18个RLBench任务中,Sigma-Agent在10个和100个演示训练下的表现均超过了当前最先进的方法RVT,平均分别提高了5.2%和5.9%。在5个真实世界的操作任务中,Sigma-Agent使用单一策略实现了62%的成功率。论文提供了代码。
  • 相关研究
    在这个领域的最近相关研究包括:'RoboNet: Large-Scale Multi-Robot Learning','Learning to Learn How to Learn: Self-Adaptive Visual Navigation Using Meta-Learning','Learning to Simulate for Physical Scene Understanding and Robotic Manipulation'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问