R+X: Retrieval and Execution from Everyday Human Videos

简介

我们提出了R+X框架，它使得机器人可以从未经标注的第一人称视频中学习人类执行日常任务的技能。当人类下达语言指令时，R+X首先检索包含相关行为的短视频片段，然后通过在上下文中的模仿学习方法来执行该技能。通过利用视觉语言模型（VLM）进行检索，R+X不需要对视频进行任何手动注释，并且通过利用上下文学习进行执行，机器人可以立即执行指令的技能，而无需在检索到的视频上进行训练。对一系列日常家务任务的实验表明，R+X成功地将未标记的人类视频转化为强大的机器人技能，并且R+X优于几种最近的替代方法。视频可在https://www.robot-learning.uk/r-plus-x上获得。
图表
解决问题

R+X论文旨在解决机器人从未标记的人类长视频中学习技能的问题。这是一个新问题，因为先前的方法需要标记的数据或漫长的训练期间。
关键思路

R+X使用Vision Language Model（VLM）检索相关行为的短视频剪辑，然后通过在上下文中的条件化模仿学习方法来执行技能。这种方法不需要手动注释视频，并且机器人可以立即执行命令的技能。
其它亮点

R+X在多个日常家务任务中成功将未标记的人类视频转化为机器人技能，并且在实验中表现出比其他方法更好的效果。论文提供了视频和代码，为未来的研究提供了基础。
相关研究

在这个领域中，最近的相关研究包括：\n1. Learning to Learn from Video and Text via Large-Scale Discriminative Clustering (ICML 2021)\n2. Self-Supervised Multi-Modal Versatile Networks for Visual Grounding (CVPR 2021)\n3. Learning to Learn with Feedback and Local Plasticity (NeurIPS 2020)

R+X: Retrieval and Execution from Everyday Human Videos

评论