Actra: Optimized Transformer Architecture for Vision-Language-Action Models in Robot Learning

2024年08月02日
  • 简介
    视觉-语言-动作模型因其在机器人学习中建模轨迹的能力而受到重视。然而,大多数现有模型依赖于具有普通因果关注的Transformer模型,我们发现这种模型在处理分段多模态序列时不够优秀。此外,自回归生成方法在生成多维动作方面存在不足。在本文中,我们介绍了Actra,这是一种优化的Transformer架构,具有轨迹关注和可学习的动作查询,旨在有效编码和解码机器人模仿学习中的分段视觉-语言-动作轨迹。此外,我们设计了一种多模态对比学习目标,以明确对齐不同的模态,补充主要的行为克隆目标。通过在各种环境中进行的大量实验,Actra在可推广性、灵巧性和精确性方面相对于最先进的模型表现出了显着的性能提升。
  • 图表
  • 解决问题
    本论文旨在解决机器人学习中的轨迹建模问题,特别是针对分段多模态序列的处理方式,以及自回归生成方法在生成多维动作时的不足。
  • 关键思路
    论文提出了一种名为Actra的优化Transformer架构,其中包括轨迹注意力和可学习的动作查询,用于有效编码和解码分段视觉-语言-动作轨迹。此外,论文还设计了一种多模态对比学习目标,以明确对齐不同模态,补充主要的行为克隆目标。
  • 其它亮点
    论文通过在不同环境下进行广泛实验,展示了Actra相比现有模型在通用性、灵活性和精度方面的显著性能提升。此外,论文还开源了代码。
  • 相关研究
    在相关研究方面,最近的一些论文包括:'Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks'、'Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论