Structured World Models from Human Videos

R Mendonca, S Bahl, D Pathak
[CMU]

从人类视频构建结构化世界模型

  • 目标是使机器人能在真实世界中只通过极少的实际交互就直接高效地学习操作技能。
  • 关键思想是利用大规模的互联网/人类视频数据来预训练一个世界模型,捕捉人类双手如何与物体交互,这个预训练模型之后可以通过极少的真实机器人数据进行微调。
  • 根据人类中心的视觉暗示提出一个结构化的操作空间,以实现从人类域到机器人域的转换,尽管两者在形态上存在差异,包括抓取点和抓取后关键点。
  • 视觉暗示操作比直接末端执行器控制使学习更有效,该方法在一个混合操作空间中结合了视觉暗示操作和末端执行器增量。
  • 在人类视频上预训练使得可以在不需要特定任务奖励的情况下从多样任务中学习。在机器人数据上微调是无监督的。
  • 实验显示,在多个真实世界任务中,该方法只需要不到30分钟的机器人交互数据就比其他方法成功率高出2倍。

动机:解决在现实世界中直接学习复杂、通用行为的问题。研究者们认为,为了有效地学习,机器人必须能利用互联网规模的人类视频数据。
方法:提出一种方法,通过使用来自不同环境的少量真实世界交互轨迹,使机器人能高效地学习操作技能,该方法基于计算机视觉和自然语言领域从大规模数据集学习的成功,认为机器人需要能利用互联网规模的人类视频数据。
优势:通过从人类视频中学习视觉能力和行为空间,使机器人能在复杂环境中学习各种操作技能,并且只需要不到30分钟的交互时间。同时,该方法不需要任务监督,可以在机器人交互数据的基础上对人类视频进行微调,从而实现通用学习。

提出一种利用人类视频数据进行机器人操作技能学习的方法,通过学习视觉能力和行为空间,机器人能在复杂环境中学习各种操作技能,只需少量交互时间。

Videos can be found at https://human-world-model.github.io 

https://arxiv.org/abs/2308.10901 
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除