Diffusion Policies creating a Trust Region for Offline Reinforcement Learning

简介

本文介绍了一种离线强化学习（RL）方法，即扩散 Q 学习（DQL），它引入扩散模型作为一种强大和表达力强的策略类，显著提高了离线 RL 的性能。然而，它依赖于迭代去噪采样来生成动作，这会拖慢训练和推理速度。虽然最近有几个尝试加速扩散 QL 的方法，但训练和/或推理速度的提高往往导致性能下降。因此，本文提出了一种双策略方法，即扩散可信 Q 学习（DTQL），它由一个用于纯行为克隆的扩散策略和一个实用的单步策略组成。两种策略之间通过新引入的扩散信任区域损失进行桥接。扩散策略保持了表达力，而信任区域损失指导单步策略自由探索并在扩散策略定义的区域内寻找模式。DTQL 在训练和推理过程中都不需要迭代去噪采样，因此具有非常高的计算效率。本文在 2D 赌博机场景和 gym 任务中评估了 DTQL 与流行的基于 Kullback-Leibler（KL）的蒸馏方法的有效性和算法特性。然后，我们展示了 DTQL 在大多数 D4RL 基准任务上不仅胜过其他方法，而且在训练和推理速度上也表现出高效性。PyTorch 实现可在 https://github.com/TianyuCodings/Diffusion_Trusted_Q_Learning 上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

DTQL试图解决离线强化学习中DQL算法迭代噪声采样导致训练和推理速度缓慢的问题。
关键思路

DTQL采用双策略方法，结合扩散策略和一步策略，通过扩散信任区域损失将两种策略联系起来，从而消除了迭代噪声采样的需要，提高了计算效率。
其它亮点

论文对DTQL在2D赌博机场景和gym任务中的有效性和算法特性进行了评估，并将其与KL基础蒸馏方法进行了比较。在D4RL基准任务中，DTQL不仅在大多数任务上优于其他方法，而且在训练和推理速度方面也表现出高效性。DTQL的PyTorch实现已经开源。
相关研究

最近的相关研究包括：基于KL的蒸馏方法。

Diffusion Policies creating a Trust Region for Offline Reinforcement Learning

提问交流

提问交流