- 简介强化学习在复杂任务上取得了令人瞩目的成果,但在具有不同体现的多任务设置中面临困难。世界模型通过学习环境的模拟来提供可扩展性,但它们经常依赖于低效的无梯度优化方法。我们介绍了一种名为大型世界模型策略学习(PWM)的新型基于模型的强化学习算法,它从大型多任务世界模型中学习连续控制策略。通过在离线数据上预训练世界模型,并使用它进行一阶梯度策略学习,PWM有效地解决了具有多达152个动作维度的任务,并优于使用地面实况动力学的方法。此外,PWM扩展到80个任务设置,比现有基线获得高达27%的奖励,而无需昂贵的在线规划。可在https://policy-world-model.github.io获得可视化和代码。
- 图表
- 解决问题论文旨在解决多任务设置中,强化学习在不同体现下的效率问题,并提出了一种基于大型世界模型的策略学习算法。
- 关键思路PWM通过使用离线数据预训练世界模型,并使用一阶梯度策略学习,有效地解决了高达152个行动维度的任务,并且比使用真实动力学的方法表现更好。
- 其它亮点论文提供了可视化和代码,并在80个任务设置中进行了实验,表现出比现有基线高达27%的奖励。这篇论文的亮点在于提出了一种新的基于模型的强化学习算法,可以解决多任务设置中的效率问题。
- 最近的相关研究包括基于模型的强化学习和世界模型等方面的研究,例如“Model-Based Reinforcement Learning with Neural Network Dynamics”和“World Models”。
沙发等你来抢
去评论
评论
沙发等你来抢