Energy-Guided Diffusion Sampling for Offline-to-Online Reinforcement Learning

2024年07月17日
  • 简介
    将离线和在线强化学习技术相结合,确实对于在数据获取成本高的情况下实现高效且安全的学习至关重要。现有方法直接在在线阶段重放离线数据,导致数据分布转移的显著挑战,从而导致在线微调的低效性。为了解决这个问题,我们引入了一种创新方法,即基于能量引导的扩散采样(EDIS),该方法利用扩散模型从离线数据集中提取先验知识,并使用能量函数来提炼这些知识,以增强在线阶段的数据生成。理论分析表明,与仅使用在线数据或直接重用离线数据相比,EDIS表现出更少的次优性。EDIS是一种插件方法,可以与现有方法结合在离线到在线强化学习设置中使用。通过将EDIS实现到现成方法Cal-QL和IQL中,我们观察到MuJoCo、AntMaze和Adroit环境中实证表现的平均改进达到了20%。代码可在\url{https://github.com/liuxhym/EDIS}中获得。
  • 图表
  • 解决问题
    论文旨在解决离线和在线强化学习技术的结合问题,提出了一种新的方法EDIS。
  • 关键思路
    EDIS利用扩散模型从离线数据集中提取先验知识,并利用能量函数在在线阶段提取这些知识以增强数据生成。
  • 其它亮点
    EDIS是一种插件方法,可以与现有的离线到在线强化学习方法结合使用。研究表明,将EDIS应用于Cal-QL和IQL方法可以在MuJoCo、AntMaze和Adroit环境中获得平均20%的性能提升。研究代码已经开源。
  • 相关研究
    最近的相关研究包括“Off-Policy Deep Reinforcement Learning without Exploration”和“Learning to Optimize via Information-Directed Sampling”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论