Scrutinize What We Ignore: Reining Task Representation Shift In Context-Based Offline Meta Reinforcement Learning

简介

离线元强化学习（OMRL）已成为一种有前途的方法，通过利用预先收集的数据和元学习技术，实现交互避免和强大的泛化性能。以往的基于上下文的方法主要依赖于一种直觉，即最大化任务与任务表示之间的互信息（$I(Z;M)$）可以导致性能的提高。尽管取得了令人满意的结果，但缺乏对这种直觉性能提升的理论证明。受模型驱动的强化学习领域中的回报差异方案的启发，我们发现最大化 $I(Z;M)$ 可以被解释为在给定最优任务表示的情况下，持续提高给定策略的预期回报的下限。然而，这个优化过程忽略了两次更新之间的任务表示转移，这可能会导致性能提升的崩溃。为了解决这个问题，我们转向使用性能差异界限框架来明确考虑任务表示转移的影响。我们证明，通过控制任务表示转移，可以实现单调的性能提升，从而展示出与以前方法的优势。为了使其实用，我们设计了一种简单但高效的算法 RETRO（基于上下文的离线元强化学习中的任务表示转移优化），与骨干相比只需添加一行代码。实证结果验证了其在 MuJoCo 和 MetaWorld 基准测试中的最新性能、培训稳定性和培训时间消耗。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决离线元强化学习中的任务表示偏移问题，提出了一种新的算法 RETRO。
关键思路

本文提出了一种基于性能差异界的算法 RETRO，通过限制任务表示的偏移，实现了性能的单调提升。
其它亮点

本文的实验结果表明，RETRO 算法在 MuJoCo 和 MetaWorld 数据集上具有最先进的性能、训练稳定性和训练时间消耗。此外，RETRO 算法只需要在原算法中添加一行代码即可实现。
相关研究

与本文相关的研究包括利用任务表示最大化相互信息的方法以及基于模型的强化学习中的回报差异界方法。相关论文包括《Task Representation Learning for Meta-Learning》和《Model-based Reinforcement Learning with Adversarial Populations》等。

Scrutinize What We Ignore: Reining Task Representation Shift In Context-Based Offline Meta Reinforcement Learning

提问交流

提问交流