- 简介视觉-语言-动作模型因其在机器人学习中建模轨迹的能力而受到重视。然而,大多数现有模型依赖于具有普通因果关注的Transformer模型,我们发现这种模型在处理分段多模态序列时不够优秀。此外,自回归生成方法在生成多维动作方面存在不足。在本文中,我们介绍了Actra,这是一种优化的Transformer架构,具有轨迹关注和可学习的动作查询,旨在有效编码和解码机器人模仿学习中的分段视觉-语言-动作轨迹。此外,我们设计了一种多模态对比学习目标,以明确对齐不同的模态,补充主要的行为克隆目标。通过在各种环境中进行的大量实验,Actra在可推广性、灵巧性和精确性方面相对于最先进的模型表现出了显着的性能提升。
- 图表
- 解决问题本论文旨在解决机器人学习中的轨迹建模问题,特别是针对分段多模态序列的处理方式,以及自回归生成方法在生成多维动作时的不足。
- 关键思路论文提出了一种名为Actra的优化Transformer架构,其中包括轨迹注意力和可学习的动作查询,用于有效编码和解码分段视觉-语言-动作轨迹。此外,论文还设计了一种多模态对比学习目标,以明确对齐不同模态,补充主要的行为克隆目标。
- 其它亮点论文通过在不同环境下进行广泛实验,展示了Actra相比现有模型在通用性、灵活性和精度方面的显著性能提升。此外,论文还开源了代码。
- 在相关研究方面,最近的一些论文包括:'Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks'、'Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout'等。
沙发等你来抢
去评论
评论
沙发等你来抢