Diffusion-based Dynamics Models for Long-Horizon Rollout in Offline Reinforcement Learning

2024年05月29日
  • 简介
    随着扩散模型(DMs)在生成逼真的合成视觉数据方面的巨大成功,许多研究人员已经调查了它们在决策和控制方面的潜力。这些工作中的大多数利用DMs直接从轨迹空间中采样,其中DMs可以被视为动态模型和策略的组合。在这项工作中,我们探讨了如何在完全离线的情况下解耦DMs作为动态模型的能力,使学习策略可以展开轨迹。由于DMs从数据集中学习数据分布,它们的内在策略实际上是从数据集引导的行为策略,这导致了行为策略和学习策略之间的不匹配。我们提出了动态扩散(DyDiff)来迭代地向DMs注入来自学习策略的信息。DyDiff确保了长时间轨迹准确性,同时保持策略一致性,可以轻松地部署在无模型算法上。我们提供理论分析,以展示DMs在长时间轨迹展开上的优势,并展示了DyDiff在离线强化学习的背景下的有效性,其中提供了轨迹数据集,但没有在线交互环境。我们的代码在https://github.com/FineArtz/DyDiff。
  • 图表
  • 解决问题
    论文旨在探索如何在完全离线的情况下利用扩散模型(DMs)进行决策和控制,解决DMs的内在策略与学习策略之间的不匹配问题。
  • 关键思路
    该论文提出了Dynamics Diffusion(DyDiff)算法,可以将学习策略的信息迭代地注入DMs中,以确保长期轨迹的准确性,同时保持策略的一致性,并可以轻松部署到无模型算法中。
  • 其它亮点
    论文提供了理论分析,证明了DMs在长期轨迹上的优势,并展示了DyDiff在离线强化学习中的有效性。作者提供了开源代码,并使用了多个数据集进行实验设计。
  • 相关研究
    最近的相关研究包括《Diffusion Models Beat GANs on Image Synthesis》、《Learning to Control PDEs with Differentiable Physics》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论