UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

2025年05月09日
  • 简介
    一个通用型机器人应当能够在各种环境中有效运行。然而,大多数现有的方法高度依赖于带有动作标注的数据扩展来增强其能力。因此,这些方法通常受限于单一的物理规格,并且在不同实体和环境之间学习可迁移知识时面临困难。为了解决这些限制,我们提出了 UniVLA,这是一种用于学习跨实体视觉-语言-动作(VLA)策略的新框架。我们的核心创新在于通过潜在动作模型从视频中提取以任务为中心的动作表示。这使我们能够利用涵盖广泛实体和视角的大量数据。为了减轻与任务无关的动力学影响,我们引入了语言指令,并在 DINO 特征空间内建立了潜在动作模型。该模型通过大规模互联网视频学习,可以通过高效的潜在动作解码部署到多种机器人上。我们在多个操作和导航基准测试以及真实机器人部署中取得了最先进的结果。UniVLA 在不到 OpenVLA 二十分之一的预训练计算量和十分之一的下游数据量的情况下,实现了更优的性能。随着异构数据(甚至包括人类视频)被纳入训练流程,性能持续提升。这些结果突显了 UniVLA 在促进可扩展且高效的机器人策略学习方面的潜力。
  • 图表
  • 解决问题
    该论文试图解决机器人在不同物理形态和环境中执行任务时的知识迁移问题。现有的方法通常依赖大规模标注数据,且局限于单一的物理形态,难以实现跨形态的知识迁移。这是一个需要进一步探索的问题,尽管已有部分研究涉及跨形态学习,但尚未有系统性解决方案。
  • 关键思路
    论文提出了一种名为UniVLA的新框架,通过从视频中提取任务相关的动作表示,并结合语言指令建立潜在动作模型,从而减少对大规模标注数据的依赖。与现有方法相比,UniVLA的核心创新在于利用DINO特征空间学习潜在动作模型,使得通用策略可以高效地部署到多种机器人形态上。这种方法显著降低了预训练计算需求和下游数据需求。
  • 其它亮点
    1. UniVLA在多个操纵和导航基准测试中取得了最先进的结果,并成功应用于真实机器人部署。 2. 实验表明,随着异构数据(包括人类视频)的加入,性能持续提升。 3. 论文展示了比OpenVLA更高的效率,仅需其1/20的预训练计算量和1/10的下游数据。 4. 数据集涵盖了多种视角和机器人形态,但未明确提及代码是否开源。 5. 值得继续研究的方向包括:如何进一步优化潜在动作模型以适应更复杂的任务,以及如何将该方法扩展到更多类型的机器人应用中。
  • 相关研究
    近期相关研究包括: 1. OpenVLA:一种用于跨形态学习的视觉-语言-动作框架,但计算成本较高。 2. DINO:基于自监督学习的视觉特征提取方法,为UniVLA提供了基础支持。 3. ALFRED:专注于通过自然语言指令进行机器人操作的任务导向型学习。 4. Vicuna:探讨了大规模多模态模型在机器人任务中的应用。 5. RoboTHOR:一个用于导航和交互任务的模拟环境,常被用作基准测试平台。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论