Transferable Reinforcement Learning via Generalized Occupancy Models

2024年03月10日
  • 简介
    智能代理必须是通才——展示快速适应和泛化到不同任务的能力。在强化学习(RL)框架下,基于模型的RL算法学习任务不可知的世界动态模型,原则上允许它们泛化到任意奖励。然而,单步模型自然会遭受复合误差,使它们对于具有长时间和大状态空间问题的无效。在这项工作中,我们提出了一种新的模型类——广义占用模型(GOMs),它们保留了基于模型的RL的通用性,同时避免了复合误差。GOMs背后的关键思想是,在固定数据集范围内建模给定状态下所有可能的长期结果的分布,以及实现给定状态下特定结果的策略。然后,这些模型可以快速用于选择任意新任务的最优行动,而无需重新进行策略优化。通过直接建模长期结果,GOMs避免了复合误差,同时保持了对任意奖励函数的通用性。我们使用扩散模型提供了GOMs的实际实例,并在各种模拟机器人问题上在理论和实证上展示了它的功效。视频和代码可在https://weirdlabuw.github.io/gom/上找到。
  • 图表
  • 解决问题
    论文旨在解决强化学习中模型一步预测误差累积的问题,提出了一种新的模型——广义占据模型(GOM),以解决长期、大状态空间问题的泛化能力。
  • 关键思路
    GOM模型的关键思路是建立状态下所有可能的长期结果的分布模型,以及实现特定结果的策略,从而避免一步模型的误差累积问题。
  • 其它亮点
    论文使用扩散模型实现了GOM模型,并在多个模拟机器人问题上进行了实验验证。论文提出的GOM模型具有泛化能力强、避免误差累积的优点,并且作者提供了代码和视频资源。
  • 相关研究
    最近的相关研究包括模型预测控制(MPC)、深度强化学习(DRL)等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论