【标题】S2P: State-conditioned Image Synthesis for Data Augmentation in Offline Reinforcement Learning

【作者团队】Daesol Cho, Dongseok Shim, H. Jin Kim

【发表日期】2022.9.30

【论文链接】https://arxiv.org/pdf/2209.15256.pdf

【推荐理由】离线强化学习 (Offline RL) 存在先天的分布变化,因为它在训练期间无法与物理环境进行交互。为了缓解这种限制,基于状态的离线强化学习利用从记录经验中学习到的动态模型,并增强预测的状态转换以扩展数据分布。为了在基于图像的 RL 上也利用这种优势,本文首先提出了一个生成模型 S2P (State2Pixel),它从相应的状态合成智能体的原始像素。它可以在 RL 算法中弥合状态和图像域之间的差距,并通过状态空间中基于模型的转换虚拟地探索看不见的图像分布。实验证明,基于 S2P 的图像合成不仅提高了基于图像的离线 RL 性能,而且对未知任务具有很强的泛化能力。