【标题】Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning
【作者团队】Zhendong Wang, Jonathan J Hunt, Mingyuan Zhou
【发表日期】2022.8.12
【论文链接】https://arxiv.org/pdf/2208.06193.pdf
【推荐理由】离线强化学习 (RL) 旨在使用先前收集的静态数据集学习最佳策略,是 RL 的重要范例。由于分布外动作的函数逼近误差,标准 RL 方法通常在此任务上表现不佳。虽然已经提出了多种正则化方法来缓解这个问题,但它们通常受到表达能力有限的策略类的限制,有时会导致基本上不是最优的解决方案。本文提出了 扩散-QL,它利用条件扩散模型作为行为克隆和策略正则化的高度表达策略类。本文学习了一个动作值函数,并在条件扩散模型的训练损失中添加了一个最大化动作值的项,这会导致寻求接近行为策略的最优动作的损失。本文展示了基于扩散模型策略的表现力以及扩散模型下行为克隆和策略改进的耦合都有助于 扩散-QL 的出色性能。文中在一个带有多模态行为策略的简单 2D bandit 示例中说明了此文方法和先前的工作。
德克萨斯大学奥斯汀分校|扩散策略作为离线强化学习的表达策略类
沙发等你来抢
去评论
评论
沙发等你来抢