3D-MVP: 3D Multiview Pretraining for Robotic Manipulation

2024年06月26日
  • 简介
    最近的研究表明,使用遮蔽自编码器(MAE)在以自我为中心的数据集上进行视觉预训练可以提高下游机器人任务的泛化性能。然而,这些方法仅在2D图像上进行预训练,而许多机器人应用需要3D场景理解。在本研究中,我们提出了一种名为3D-MVP的新方法,用于使用遮蔽自编码器进行3D多视角预训练。我们利用机器人视图变换器(RVT),使用多视角变换器来理解3D场景并预测夹爪姿态动作。我们将RVT的多视角变换器分为视觉编码器和动作解码器,并使用Objaverse等大规模3D数据集上的遮蔽自编码进行其视觉编码器的预训练。我们在一套虚拟机器人操作任务上评估了3D-MVP,并展示了对基线的改进性能。我们还展示了在最小微调下在真实机器人平台上的有希望的结果。我们的结果表明,3D感知的预训练是提高基于视觉的机器人操作策略的样本效率和泛化性的有前途的方法。我们将发布3D-MVP的代码和预训练模型,以促进未来的研究。项目网站:https://jasonqsy.github.io/3DMVP。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在提出一种新的3D多视角预训练方法,以解决当前机器人应用中需要3D场景理解的问题。同时,论文旨在验证3D预训练对于视觉导向的机器人操作的泛化性和样本效率的提高是否是一种有效的方法。
  • 关键思路
    本论文提出了一种名为3D-MVP的方法,通过使用掩码自编码器进行大规模的3D数据集预训练,将机器人视觉转换器(RVT)的多视角转换器分为视觉编码器和动作解码器,并在虚拟和真实机器人任务中进行了评估。
  • 其它亮点
    论文的亮点包括:1.提出了一种新的3D多视角预训练方法3D-MVP;2.在大规模的3D数据集上使用掩码自编码器进行预训练;3.将机器人视觉转换器(RVT)的多视角转换器分为视觉编码器和动作解码器;4.在虚拟和真实机器人任务中进行了评估,并取得了优于基线的表现;5.论文提供了代码和预训练模型。
  • 相关研究
    在这个领域中,最近的相关研究包括:1.《Self-Supervised Learning of 3D Objects from Natural Images》;2.《Unsupervised Learning for Physical Interaction through Video Prediction》;3.《Learning to Control Self-Assembling Morphologies: A Study of Generalization via Modularity》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问