【论文标题】Model-Based Reinforcement Learning via Latent-Space Collocation

【作者团队】Oleh Rybkin, Chuning Zhu, Anusha Nagabandi, Kostas Daniilidis, Igor Mordatch, Sergey Levine

【发表时间】2021/06/24

【机 构】美国,宾夕法尼亚大学

【论文链接】https://arxiv.org/pdf/2106.13229.pdf

【代码链接】https://github.com/zchuning/latco

【推荐理由】本文出自美国宾夕法尼亚大学,针对基于视觉模型的强化学习(RL)方法在时间扩展任务上表现不佳的问题,本文借鉴搭配的思想,搭建潜在搭配方法 ,LatCo 模型。该方法改进了先前提出的基于视觉模型的强化学习射击方法,用于具有稀疏奖励和长期目标的任务。

 

规划未来的能力在仅利用原始高维观察(例如图像)的同时可以为自主智能体提供广泛的能力。基于视觉模型的强化学习 (RL) 方法仅需要短视域推理的任务,就可以直接规划未来行动,结果给人留下深刻印象。然而,这些方法在时间扩展的任务上表现不佳。作者团队认为,通过规划状态序列而不仅仅是动作来解决长期任务更容易,因为动作的影响会随着时间的推移而极大复合并且更难优化。为了实现这一点,本文借鉴了搭配的思想,该思想在最优控制文献中的长范围任务上显示出良好的结果,并通过利用学习的潜在状态空间模型将其适应基于图像的设置。由此产生的潜在搭配方法 (LatCo) 优化了潜在状态的轨迹,这改进了先前提出的基于视觉模型的强化学习射击方法,用于具有稀疏奖励和长期目标的任务。

 

下图为LatCo架构图,左图:潜在状态空间模型,带有一个编码器 q(z|o) 和一个潜在状态空间动力学模型 p(zt+1|zt, at) ∼ N (µ(zt, at), σ(zt, at))。奖励模型 r(zt) 从潜在状态预测奖励。 该模型使用变分下限进行训练以重建观察结果(未显示)。右图:确定性 LatCo 和射击方法的比较。 LatCo 优化一系列潜在状态和动作 z2:T , a1:T 以最大化奖励 r(zt) 并满足动态 zt+1 = µ(zt, at)。 这种联合优化允许首先放松动力学约束,这有助于摆脱局部最小值。 相比之下,射击方法需要通过时间递归应用动态和反向传播,这通常很难优化。

 

图1 Latent Collocation (LatCo)架构图

内容中包含的图片若涉及版权问题,请及时与我们联系删除