Actra: Optimized Transformer Architecture for Vision-Language-Action Models in Robot Learning

简介

视觉-语言-动作模型因其在机器人学习中建模轨迹的能力而受到重视。然而，大多数现有模型依赖于具有普通因果关注的Transformer模型，我们发现这种模型在处理分段多模态序列时不够优秀。此外，自回归生成方法在生成多维动作方面存在不足。在本文中，我们介绍了Actra，这是一种优化的Transformer架构，具有轨迹关注和可学习的动作查询，旨在有效编码和解码机器人模仿学习中的分段视觉-语言-动作轨迹。此外，我们设计了一种多模态对比学习目标，以明确对齐不同的模态，补充主要的行为克隆目标。通过在各种环境中进行的大量实验，Actra在可推广性、灵巧性和精确性方面相对于最先进的模型表现出了显着的性能提升。
图表
解决问题

本论文旨在解决机器人学习中的轨迹建模问题，特别是针对分段多模态序列的处理方式，以及自回归生成方法在生成多维动作时的不足。
关键思路

论文提出了一种名为Actra的优化Transformer架构，其中包括轨迹注意力和可学习的动作查询，用于有效编码和解码分段视觉-语言-动作轨迹。此外，论文还设计了一种多模态对比学习目标，以明确对齐不同模态，补充主要的行为克隆目标。
其它亮点

论文通过在不同环境下进行广泛实验，展示了Actra相比现有模型在通用性、灵活性和精度方面的显著性能提升。此外，论文还开源了代码。
相关研究

在相关研究方面，最近的一些论文包括：'Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks'、'Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout'等。

Actra: Optimized Transformer Architecture for Vision-Language-Action Models in Robot Learning

评论