Diffusion Reward: Learning Rewards via Conditional Video Diffusion

简介

本文提出了一种新的框架——Diffusion Reward，通过条件视频扩散模型从专家视频中学习奖励来解决复杂的视觉强化学习问题。我们的关键洞察是，在专家轨迹的条件下，观察到较低的生成多样性。因此，Diffusion Reward 被形式化为负条件熵，鼓励对专家行为进行生产性探索。我们在 MetaWorld 和 Adroit 的 10 个机器人操作任务中展示了我们的方法的有效性，这些任务都是基于视觉输入和稀疏奖励的。此外，Diffusion Reward 甚至可以成功有效地解决未见过的任务，远远超过基线方法。项目页面和代码：https://diffusion-reward.github.io/。
图表
解决问题

论文旨在通过学习专家视频中的奖励来解决复杂的视觉强化学习问题。这是一个新问题。
关键思路

Diffusion Reward是一种新的框架，通过条件视频扩散模型从专家视频中学习奖励，以解决视觉强化学习问题。该框架以专家轨迹为条件，通过鼓励专家行为的有生产性探索来形式化地定义奖励。
其它亮点

论文在MetaWorld和Adroit的10个机器人操作任务中展示了Diffusion Reward方法的有效性，并展示了其在成功解决未见过的任务方面的表现。该论文的项目页面和代码已经开源。
相关研究

最近在这个领域中，有一些相关的研究，如Learning from Demonstrations using Signal Temporal Logic Constraints和Learning from Demonstrations with Contrastive Distribution Estimation。

Diffusion Reward: Learning Rewards via Conditional Video Diffusion

评论