- 简介我们旨在学习一种可推广的目标条件策略,使得机器人能够进行零-shot操作:在新颖场景中与未见过的物体进行交互,而无需测试时的适应。虽然典型方法依赖于大量的演示数据来进行这种泛化,但我们提出了一种方法,利用网络视频来预测合理的交互计划,并学习一种与任务无关的转换,以获取在现实世界中的机器人动作。我们的框架Track2Act基于目标预测图像中的点在未来时间步骤中应如何移动的轨迹,并可以通过网络上的多种视频进行训练,包括人类和机器人操作日常物品的视频。我们使用这些2D轨迹预测来推断要操作的物体的一系列刚性变换序列,并获得可以以开环方式执行的机器人末端执行器姿态。然后,我们通过使用少量体现特定演示进行训练的闭环策略来预测残差动作,来改进这个开环计划。我们展示了这种将可扩展学习的轨迹预测与需要最少领域内机器人特定数据的残差策略相结合的方法实现了零-shot机器人操作,并展示了跨未见任务,物体和场景的各种真实世界机器人操作结果。
- 图表
- 解决问题该论文旨在解决零-shot机器人操作的问题,即在不需要测试时进行适应的情况下与新场景中的未见过的物体进行交互。此外,该论文还试图通过利用网络视频来预测合理的交互计划并学习任务不可知的转换来实现该目标。
- 关键思路该论文的关键思路是使用Track2Act框架,该框架使用网络视频来预测点在图像中如何移动,并根据目标学习任务不可知的转换,从而获得可以以开环方式执行的机器人末端执行器姿态。然后,通过使用少量的具体机器人演示来训练闭环策略来预测残差动作,从而优化这个开环计划。
- 其它亮点该论文的亮点包括:使用网络视频进行零-shot机器人操作;Track2Act框架可以预测点在图像中如何移动;使用任务不可知的转换来获得可以以开环方式执行的机器人末端执行器姿态;使用少量的具体机器人演示来训练闭环策略来预测残差动作;在未见过的任务、物体和场景中进行了广泛的真实世界机器人操作实验。
- 在这个领域中,最近的相关研究包括:Learning to See, Act, and Move: LiDAR-guided Manipulation for Autonomous Mobile Robots;Zero-Shot Task Transfer with Adversarial Distribution Alignment;Zero-Shot Visual Imitation;Unsupervised Learning for Physical Interaction through Video Prediction。
沙发等你来抢
去评论
评论
沙发等你来抢