- 简介机器人操作中的一个基本目标是使模型能够理解视觉场景并执行动作。虽然现有的机器人多模态大语言模型(MLLMs)可以处理一系列基本任务,但它们仍然面临两个挑战:1)缺乏处理复杂任务的推理能力,2)MLLM的微调和推理需要高计算成本。最近提出的状态空间模型(SSM)Mamba在线性推理复杂度下展示了非平凡序列建模的有前途的能力。受此启发,我们介绍了RoboMamba,这是一个端到端的机器人MLLM,利用Mamba模型提供机器人推理和行动能力,同时保持高效的微调和推理。具体来说,我们首先将视觉编码器与Mamba集成,通过联合训练将视觉数据与语言嵌入对齐,赋予我们的模型视觉常识和机器人相关的推理能力。为了进一步为RoboMamba配备动作姿态预测能力,我们探索了一种简单的策略头的高效微调策略。我们发现,一旦RoboMamba具备足够的推理能力,它可以在最小的微调参数(模型的0.1%)和时间(20分钟)内获得操作技能。在实验中,RoboMamba在一般和机器人评估基准上展示出了出色的推理能力。同时,我们的模型在模拟和现实世界实验中展示了令人印象深刻的姿态预测结果,实现了比现有机器人MLLMs快7倍的推理速度。我们的项目网页:https://sites.google.com/view/robomamba-web。
- 图表
- 解决问题RoboMamba试图解决的问题是如何让机器人理解视觉场景并执行动作,同时保持高效的微调和推理。这是一个新问题。
- 关键思路RoboMamba的关键思路是将Mamba模型与视觉编码器相结合,通过联合训练将视觉数据与语言嵌入对齐,从而赋予模型视觉常识和与机器人相关的推理能力。此外,通过简单的策略头,RoboMamba还可以获得动作姿势预测能力。
- 其它亮点RoboMamba在一般和机器人评估基准测试中展示了出色的推理能力。同时,模型在仿真和实际实验中展示了令人印象深刻的姿势预测结果,推理速度比现有的机器人MLLMs快7倍。论文提供了项目网页链接,其中包括数据集和开源代码。
- 最近在这个领域中,其他相关研究包括:《Multimodal Transformers for Human-Human Interaction》、《Embodied Language Grounding with Multimodal Transformers》、《Transformers for Video Recognition》等。
沙发等你来抢
去评论
评论
沙发等你来抢