Latent Action Pretraining from Videos

2024年10月15日
  • 简介
    我们介绍了一种通用行动模型的潜在行动预训练方法(LAPA),这是一种无监督的方法,可对视觉-语言-动作(VLA)模型进行预训练,而无需真实的机器人动作标签。现有的视觉-语言-动作模型通常需要在预训练期间由人类远程操作员收集机器人动作标签,这严重限制了可能的数据来源和规模。在这项工作中,我们提出了一种方法,可以从不带机器人动作标签的互联网规模视频中学习。我们首先使用基于VQ-VAE的目标训练一个行动量化模型,以学习图像帧之间的离散潜在动作,然后预训练一个潜在的VLA模型,以从观察和任务描述中预测这些潜在动作,最后在小规模机器人操作数据上微调VLA,将潜在动作映射到机器人动作。实验结果表明,我们的方法明显优于从大规模视频中训练机器人操作策略的现有技术。此外,它在需要语言调节、对未见过的物体进行泛化和对未见过的指令进行语义泛化的实际操作任务中,表现优于使用机器人动作标签训练的最先进的VLA模型。仅在人类操作视频上进行训练也表现出积极的迁移效果,为利用Web规模数据进行机器人基础模型的打开了潜力。
  • 图表
  • 解决问题
    本论文旨在提出一种无需机器人动作标签的视觉-语言-动作(VLA)模型预训练方法,以从互联网规模的视频中学习机器人动作
  • 关键思路
    通过先训练动作量化模型,然后预训练潜在的VLA模型来预测这些潜在的动作,最后在小规模机器人操作数据上微调VLA,从而实现从互联网规模的视频中学习机器人动作的目标
  • 其它亮点
    本文提出的LAPA方法在真实世界的操作任务中表现出色,同时也具有在人类操作视频上的积极转移效果,为机器人基础模型的利用网络规模数据开辟了潜在的可能性
  • 相关研究
    与此相关的研究包括使用大规模视频训练机器人操作策略的现有技术以及使用机器人动作标签进行VLA模型预训练的先前工作
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论