Contrastive Imitation Learning for Language-guided Multi-Task Robotic Manipulation

简介

开发能够执行各种操作任务的机器人，根据自然语言指令和对复杂真实世界环境的视觉观察进行指导，仍然是机器人领域的一个重大挑战。这种机器人代理需要理解语言命令，并区分不同任务的要求。在这项工作中，我们提出了Sigma-Agent，这是一个用于多任务机器人操作的端到端模仿学习代理。Sigma-Agent采用对比模仿学习（对比IL）模块来加强视觉语言和当前未来表示。我们介绍了一种有效且高效的多视图查询Transformer（MVQ-Former），用于聚合代表性语义信息。在18个RLBench任务的不同设置下，Sigma-Agent显示出比最先进的方法显着的改进，在10次和100次演示训练中平均超过RVT 5.2％和5.9％。Sigma-Agent还在5个真实世界操作任务中以单一策略实现了62％的成功率。代码将在接受后发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决机器人多任务操作中的语言指令和视觉观察的问题，并提出了一个端到端的模仿学习代理Sigma-Agent来解决这个问题。
关键思路

Sigma-Agent采用对比模仿学习模块来加强视觉语言和当前未来表示，引入了有效且高效的多视图查询Transformer（MVQ-Former）来聚合代表性语义信息。
其它亮点

在18个RLBench任务中，Sigma-Agent在10个和100个演示训练下的表现均超过了当前最先进的方法RVT，平均分别提高了5.2%和5.9%。在5个真实世界的操作任务中，Sigma-Agent使用单一策略实现了62%的成功率。论文提供了代码。
相关研究

在这个领域的最近相关研究包括：'RoboNet: Large-Scale Multi-Robot Learning'，'Learning to Learn How to Learn: Self-Adaptive Visual Navigation Using Meta-Learning'，'Learning to Simulate for Physical Scene Understanding and Robotic Manipulation'等。

Contrastive Imitation Learning for Language-guided Multi-Task Robotic Manipulation

提问交流

提问交流