- 简介这项工作介绍了Mamba模仿学习(MaIL),一种新颖的模仿学习(IL)架构,提供了一种计算效率高的替代方案,可以替代最先进的Transformer策略。基于Transformer的策略由于其处理具有固有非马尔可夫行为的人类记录数据的能力而取得了显著的成果。然而,它们的高性能带来的缺点是大型模型,使有效训练变得复杂。虽然状态空间模型(SSM)以其效率而著称,但它们无法与Transformer的性能相匹配。Mamba显着提高了SSM的性能,并与Transformer竞争,使其成为IL策略的一个吸引人的替代方案。MaIL利用Mamba作为骨干,并引入一种形式化方法,允许在编码器-解码器结构中使用Mamba。这种形式化方法使其成为一种多才多艺的架构,可以用作独立策略或更高级别架构的一部分,例如扩散过程中的扩散器。在LIBERO IL基准测试和三个真实机器人实验上进行了广泛的评估,结果表明,MaIL:i)在所有LIBERO任务中均优于Transformer,ii)即使使用小型数据集也能取得良好的性能,iii)能够有效地处理多模态感官输入,iv)与Transformer相比,对输入噪声更加稳健。
- 图表
- 解决问题本文旨在提出一种计算效率更高的模仿学习(IL)架构,以替代目前最先进的Transformer策略。这是一个新问题。
- 关键思路该论文提出了Mamba Imitation Learning(MaIL)架构,它利用Mamba作为骨干,并引入了一种形式化方法,允许在编码器-解码器结构中使用Mamba。这种形式化方法使其成为一种多功能架构,可以作为独立的策略或作为更高级架构的一部分使用。
- 其它亮点该论文在LIBERO IL基准测试和三个真实机器人实验中进行了广泛的评估。实验表明,MaIL:i)在所有LIBERO任务中优于Transformers,ii)即使在小数据集的情况下也能够取得良好的性能,iii)能够有效地处理多模态感官输入,iv)比Transformers更具有输入噪声抗干扰性。
- 最近的相关研究包括使用SSMs和Transformers的模仿学习架构,以及使用不同的神经网络架构来改进模仿学习性能的研究。
沙发等你来抢
去评论
评论
沙发等你来抢