Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers

简介

本研究探索了一种不同的方法，即机器人是否能够直接从观察人类行为中推断任务，而不是像大型机器人系统通常依赖于文本指令。这种转变需要机器人能够解码人类意图，并将其翻译成在其物理约束和环境内可执行的动作。我们介绍了一种新颖的视频学习框架Vid2Robot，用于机器人的端到端学习。给定一个操作任务的视频演示和当前的视觉观察，Vid2Robot直接生成机器人动作。这是通过在大量人类视频和机器人轨迹的数据集上训练统一的表示模型实现的。该模型利用交叉注意机制将提示视频特征融合到机器人的当前状态中，并生成模仿观察任务的适当动作。为了进一步提高策略性能，我们提出了辅助对比损失，增强了人类和机器人视频表示之间的对齐。我们在真实世界的机器人上评估了Vid2Robot，当使用人类演示视频时，与其他基于视频条件的策略相比，性能提高了20％。此外，我们的模型展示了新兴的能力，例如成功地将观察到的运动从一个物体转移到另一个物体，并具有长时间跨度的组合能力，因此展示了其在实际应用中的潜力。项目网站：vid2robot.github.io。
图表
解决问题

论文旨在探索机器人如何从观察人类的行为中推断任务，以实现直接从视频中推导机器人动作的目标。这个问题是否新颖？
关键思路

Vid2Robot是一个视频学习框架，通过训练一个统一的表示模型，将人类视频特征与机器人当前状态融合，从而直接生成机器人动作。该模型采用交叉注意机制，提高了人类和机器人视频表示之间的对齐。此外，辅助对比损失进一步提高了策略的性能。
其它亮点

论文在真实世界中的机器人上进行了评估，使用人类演示视频时，与其他视频条件策略相比，性能提高了20％。此外，该模型还表现出了从一个物体成功转移观察到的动作以及长期组合的能力，展示了其在实际应用中的潜力。项目网站：vid2robot.github.io
相关研究

最近在这个领域中，还有其他相关研究，例如Learning from Demonstrations for Real-World Reinforcement Learning和End-to-end Learning of Semantic Grasping。

Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers

评论