本教程对基于模型的强化学习(MBRL)领域进行了广泛的概述,特别强调了深度方法。MBRL方法利用环境模型来进行决策——而不是将环境视为一个黑箱——并且提供了超越无模型RL的独特机会和挑战。讲者将讨论学习过渡和奖励模式的方法,如何有效地使用这些模式来做出更好的决策,以及规划和学习之间的关系。讲者还强调了在典型的RL设置之外利用世界模型的方式,以及在设计未来的MBRL系统时,从人类认知中可以得到什么启示。

内容中包含的图片若涉及版权问题,请及时与我们联系删除