Thinker: Learning to Plan and Act

S Chung, I Anokhin, D Krueger
[University of Cambridge]

Thinker:规划和行动学习

  • 动机:为了填补在模型为学习的情况下,强化学习代理与习得世界模型之间的缺失,使代理能够自主与习得模型交互并利用模型进行规划。
  • 方法:提出Thinker算法,通过在环境中引入习得的世界模型和新的模型交互动作,使智能体可以通过向模型提出备选规划方案,并在环境中执行最终动作来进行规划。这样的方法使得智能体不再需要手工规划算法,能够学习如何自主规划,并且通过可视化轻松解释其规划过程。
  • 优势:所提出的Thinker算法具有:灵活性,智能体能自主学习规划而无需手工算法,适应不同状态、环境和模型;通用性,Thinker算法只影响MDP的转换,与任意强化学习算法兼容;可解释性,智能体的规划过程可以通过可视化展示,提供更深入的理解;目标一致性,真实和虚拟动作使用相同的奖励进行训练,确保规划和执行的目标一致;改进的习得模型,引入了新的架构和特征损失来优化模型的学习,重点在于学习任务相关特征和同时进行可视化。

Thinker算法允许智能体学习如何自主规划和执行动作,通过与习得模型交互实现更优的性能,为强化学习中规划技能与智能体决策过程的无缝融合提供了新的研究方向。

https://arxiv.org/abs/2307.14993 
图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除