Dreamitate: Real-World Visuomotor Policy Learning via Video Generation

向作者提问

NEW

简介

在操作中的一个关键挑战是学习一种能够稳健地适用于各种视觉环境的策略。学习稳健策略的一种有前途的机制是利用视频生成模型，这些模型是在互联网视频的大规模数据集上预训练的。本文提出了一种视觉运动策略学习框架，该框架在给定任务的人类演示上对视频扩散模型进行微调。在测试时，我们生成一个在新场景图像的条件下执行任务的示例，并直接使用这个合成的执行结果来控制机器人。我们的关键洞察是使用常见工具可以轻松地弥合人手和机器人操纵器之间的具体化差距。我们对增加复杂度的四个任务进行了评估，并证明利用互联网规模的生成模型使学习策略能够实现比现有的行为克隆方法更高的泛化程度。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决机器人操作中的泛化问题，即如何学习一个可以在不同视觉环境下稳健泛化的策略。同时，论文也验证了使用预训练的视频生成模型来学习稳健策略的有效性。
关键思路

本文提出了一种基于视频扩散模型的视觉动作策略学习框架，通过对给定任务的人类演示进行微调，生成一个在新场景下的任务执行示例，并直接使用这个合成示例来控制机器人。本文的关键思路在于使用常见工具来轻松地弥合人手和机器人操作之间的体现差距。
其它亮点

本文通过实验验证了该方法在四个不同难度的任务中的有效性，并证明了利用互联网规模的生成模型可以使学习到的策略在泛化方面取得显著进展。实验使用了多个数据集，并提供了开源代码，值得进一步研究。
相关研究

在机器人操作领域，近期的相关研究包括《End-to-End Robotic Reinforcement Learning without Reward Engineering》、《Learning Dexterous In-Hand Manipulation》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问