首尔大学|S2P：用于离线强化学习中数据增强的状态条件图像合成

【标题】S2P: State-conditioned Image Synthesis for Data Augmentation in Offline Reinforcement Learning

【作者团队】Daesol Cho, Dongseok Shim, H. Jin Kim

【发表日期】2022.9.30

【论文链接】https://arxiv.org/pdf/2209.15256.pdf

【推荐理由】离线强化学习 (Offline RL) 存在先天的分布变化，因为它在训练期间无法与物理环境进行交互。为了缓解这种限制，基于状态的离线强化学习利用从记录经验中学习到的动态模型，并增强预测的状态转换以扩展数据分布。为了在基于图像的 RL 上也利用这种优势，本文首先提出了一个生成模型 S2P (State2Pixel)，它从相应的状态合成智能体的原始像素。它可以在 RL 算法中弥合状态和图像域之间的差距，并通过状态空间中基于模型的转换虚拟地探索看不见的图像分布。实验证明，基于 S2P 的图像合成不仅提高了基于图像的离线 RL 性能，而且对未知任务具有很强的泛化能力。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

首尔大学|S2P：用于离线强化学习中数据增强的状态条件图像合成

评论列表

评论