OpenVLA: An Open-Source Vision-Language-Action Model

2024年06月13日
  • 简介
    大型预训练模型,结合互联网规模的视觉语言数据和多样化的机器人演示,有潜力改变我们教授机器人新技能的方式:我们可以微调这些视觉语言行动(VLA)模型,以获得稳健、具有普适性的视觉运动控制策略,而不是从头开始训练新的行为。然而,广泛采用VLA用于机器人技术方面存在挑战,因为1)现有的VLA大多数是封闭的,公众无法访问,2)先前的研究未能探索有效微调VLA以适应新任务的方法,这是采用VLA的关键组成部分。为了解决这些挑战,我们介绍了OpenVLA,一个7B参数的开源VLA,它是在一个包含970k真实世界机器人演示的多样化数据集上训练的。OpenVLA基于Llama 2语言模型和一个视觉编码器,它融合了DINOv2和SigLIP的预训练特征。由于增加了数据多样性和新的模型组件,OpenVLA在通用操纵方面表现出色,在29项任务和多个机器人实体中,绝对任务成功率比RT-2-X(55B)高16.5%,参数少7倍。我们进一步展示了我们可以有效地微调OpenVLA以适应新的环境,在涉及多个对象和强语言基础的多任务环境中表现出强大的泛化能力,并且在模仿学习方面的表现超过了从头开始的表达式方法Diffusion Policy 20.4%。我们还探索了计算效率;作为一个独立的贡献,我们展示了OpenVLA可以通过现代低秩适应方法在消费级GPU上进行微调,并通过量化有效地提供服务,而不会影响下游成功率。最后,我们发布了模型检查点、微调笔记本和我们的PyTorch代码库,内置支持在Open X-Embodiment数据集上大规模训练VLA。
  • 图表
  • 解决问题
    论文旨在解决机器人学习新技能的挑战,提出了一种基于视觉-语言-动作(VLA)模型的方法,并探索了有效微调VLA模型的方法。
  • 关键思路
    OpenVLA是一个7B参数的开源VLA模型,利用970k真实世界机器人演示数据进行训练,结合了Llama 2语言模型和DINOv2、SigLIP预训练特征的视觉编码器。论文展示了OpenVLA在多个机器人实体和29个任务中的表现优于RT-2-X(55B)等封闭模型,同时在多任务环境下展现了强大的泛化能力和良好的语言基础能力。
  • 其它亮点
    论文开源了模型检查点、微调笔记本和PyTorch代码库,并支持在Open X-Embodiment数据集上进行大规模VLA训练。此外,论文还探索了计算效率,展示了OpenVLA可以通过现代低秩适应方法在消费级GPU上进行微调,并通过量化实现高效服务,同时不影响下游成功率。
  • 相关研究
    最近的相关研究包括使用深度强化学习的机器人控制,如《Playing hard exploration games by watching YouTube》,以及使用自监督学习的机器人视觉学习,如《Unsupervised Learning for Physical Interaction through Video Prediction》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论