Continual Offline Reinforcement Learning via Diffusion-based Dual Generative Replay

2024年04月16日
  • 简介
    我们研究了连续的离线强化学习,这是一种实用的范例,用于解决连续的离线任务,以便促进前向转移并减轻灾难性遗忘。我们提出了一个双重生成回放框架,通过生成伪数据的并行回放来保留先前的知识。首先,我们将连续学习策略解耦为基于扩散的生成行为模型和多头动作评估模型,使策略能够继承分布表达能力,以包含渐进的多样化行为范围。其次,我们训练一个任务条件的扩散模型来模拟过去任务的状态分布。生成的状态与行为生成器的相应响应配对,以高保真度的重放样本表示旧任务。最后,通过将伪样本与新任务的真实样本交错使用,我们不断更新状态和行为生成器,以建模渐进多样化的行为,并通过行为克隆来规范多头评论家以减轻遗忘。实验表明,我们的方法实现了更好的前向转移和更少的遗忘,并且由于样本空间的高保真度重放,与使用以前的真实数据的结果非常接近。我们的代码可在\href{https://github.com/NJU-RL/CuGRO}{https://github.com/NJU-RL/CuGRO}上获得。
  • 图表
  • 解决问题
    解决问题:论文旨在研究连续离线强化学习,提出了一种新的方法来解决序列离线任务中的前向转移和灾难性遗忘问题。
  • 关键思路
    关键思路:论文提出了一个双重生成回放框架,通过同时回放生成的伪数据来保留以前的知识。首先,将连续学习策略分解为基于扩散的生成行为模型和多头行动评估模型,使策略能够继承分布表达能力,以涵盖不断增加的各种行为。其次,训练一个任务条件扩散模型来模仿过去任务的状态分布。生成的状态与行为生成器的相应响应配对,以高保真度重放样本的形式表示旧任务。最后,通过将旧任务的伪样本与新任务的真实样本交替使用,我们不断更新状态和行为生成器以建模不断增加的各种行为,并通过行为克隆来规范化多头批评家以减轻遗忘。
  • 其它亮点
    亮点:实验表明,与使用以前的真实数据相比,我们的方法通过高保真度的样本重放更好地实现了前向转移,并且遗忘更少。代码已经开源。值得进一步深入研究。
  • 相关研究
    相关研究:最近的相关研究包括连续学习、离线强化学习和遗忘缓解等方面。例如,'Continual Learning with Deep Generative Replay'和'Gradient Episodic Memory for Continual Learning'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问