Do Agents Dream of Electric Sheep?: Improving Generalization in Reinforcement Learning through Generative Learning

简介

这个“过度拟合的大脑”假说认为梦的作用是为了在人类大脑中进行泛化。在这里，我们问是否对于强化学习代理也是如此。考虑到在真实环境中的有限经验，我们使用基于想象的强化学习来训练策略，该策略是在类似梦境的情节中进行训练的，其中非想象的预测轨迹通过生成性增强进行修改。对四个ProcGen环境的实验表明，与经典的想象和离线训练收集经验相比，我们的方法在处理稀疏奖励环境时可以达到更高的泛化水平。
图表
解决问题

论文旨在探讨强化学习智能体是否也需要类似于梦境的训练来提高泛化能力，特别是在奖励稀疏的环境中。
关键思路

使用基于想象的强化学习方法，在梦境式的场景中训练智能体，通过生成式增强来修改非想象的预测轨迹，以提高泛化能力。
其它亮点

论文在四个ProcGen环境中进行了实验，与传统的想象和离线训练相比，论文的方法在处理奖励稀疏的环境时能够达到更高的泛化水平。论文使用的方法是基于想象的强化学习，通过生成式增强来提高泛化能力。
相关研究

在最近的研究中，也有一些关于基于想象的强化学习的研究，如“Dream to Control: Learning Behaviors by Latent Imagination”和“Learning to Imagine and Imitate in Context”。