Reinformer: Max-Return Sequence Modeling for Offline RL

简介

本文介绍了一种新的最大化收益的序列建模方法——最大收益序列建模，并将其应用于强化学习中。传统的离线强化学习方法虽然可以利用回报、目标或未来轨迹等信息进行序列建模，但却忽略了最大化收益的核心目标。这种忽略直接导致了序列模型从次优数据中学习时缺乏轨迹拼接能力。为了解决这个问题，本文提出了一种增强变换器（Reinformer）序列模型，该模型通过强化学习目标来加强序列模型的学习能力，从而能够在训练阶段中最大化预测未来收益，并在推理时指导选择最优动作。实验结果表明，Reinformer在D4RL基准测试中具有与传统强化学习方法相当的性能，并且在轨迹拼接能力方面优于现有的序列模型。本文代码公开在\url{https://github.com/Dragon-Zhuang/Reinformer}。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决离线强化学习模型无法最大化回报的问题，提出了一种新的max-return序列建模方法，以此来提高序列模型对于子优数据的学习能力。
关键思路

本文提出了一种名为Reinforced Transformer（Reinformer）的序列模型，该模型将强化学习的目标（最大化回报）融入到序列模型中，从而提高了模型的学习能力和轨迹拼接能力。
其它亮点

本文的亮点包括：提出了一种新的max-return序列建模方法；设计了实验并在D4RL基准测试中与经典RL方法相比表现出色；开源了代码。
相关研究

近期相关研究包括：Offline Reinforcement Learning with Implicit Return Maximization (2020)、Maximizing the Expected Return of a Policy using a Learned Upper Bound (2020)、Off-Policy Deep Reinforcement Learning without Exploration (2018)等。

Reinformer: Max-Return Sequence Modeling for Offline RL

提问交流

提问交流