- 简介现有的约束强化学习研究可以在训练环境中获得表现良好的策略。但是,在实际环境中部署时,由于训练环境和实际环境之间可能存在模型不匹配,原本满足的约束条件很容易被违反。为了解决上述问题,我们将问题定义为在模型不确定性下的约束强化学习,其目标是学习一个良好的策略,既可以优化奖励,又可以在模型不匹配的情况下满足约束条件。我们开发了一种鲁棒约束策略优化(RCPO)算法,这是第一个适用于大型/连续状态空间并具有理论保证的算法,其在训练过程中每次迭代都保证了最坏情况下的奖励改进和约束违反。我们在一组具有约束条件的强化学习任务上展示了我们算法的有效性。
- 图表
- 解决问题解决问题:论文旨在解决在模型不确定性下的约束强化学习问题,即如何在训练和实际环境之间存在模型不匹配时,学习一个好的策略来同时优化奖励和满足约束。
- 关键思路关键思路:论文提出了一种鲁棒的约束策略优化算法(RCPO),该算法可以应用于大型/连续状态空间,并在训练过程中每个迭代都具有理论保证,可以在最坏情况下保证奖励和约束违规的改进。
- 其它亮点亮点:RCPO算法是第一个可以应用于大型/连续状态空间并具有理论保证的算法。论文在一系列具有约束的强化学习任务上展示了算法的有效性。实验设计合理,使用了多个数据集,并提供了开源代码。
- 相关研究:最近的相关研究包括基于模型的强化学习算法、约束强化学习算法以及针对模型不确定性的强化学习算法。例如:Model-Based Reinforcement Learning, Constrained Reinforcement Learning, Robust Reinforcement Learning Under Adversarial Perturbations等。
沙发等你来抢
去评论
评论
沙发等你来抢