- 简介在多目标强化学习(MORL)中,代理被赋予优化决策行为的任务,这些行为在多个可能冲突的目标之间进行权衡。基于分解的MORL是一类解决方案方法,它采用多个效用函数将多目标问题分解为单独的单目标问题,同时解决这些问题以近似一个Pareto前沿的策略。我们专注于线性效用函数的情况,其参数由权重向量w确定。我们提出了一种基于上置信界(Upper Confidence Bound)的方法,在学习过程的不同阶段高效地搜索最有前途的权重向量,以最大化所得Pareto前沿的超体积。实验证明,所提出的方法在Mujoco基准问题上的各种随机种子上优于各种MORL基线。该代码在线上提供:https://github.com/SYCAMORE-1/ucb-MOPPO。
- 图表
- 解决问题本文旨在解决多目标强化学习中的权衡问题,提出了一种基于上置信界的方法来搜索最有前途的权重向量,以最大化 Pareto 前沿的超体积。
- 关键思路本文提出的解决方案是一种基于分解的多目标强化学习方法,通过使用多个效用函数将多目标问题分解为单目标问题,并同时解决这些单目标问题,以逼近 Pareto 前沿。
- 其它亮点本文使用了基于上置信界的方法来搜索最有前途的权重向量,以最大化 Pareto 前沿的超体积。实验使用了 Mujoco 基准问题,并且在不同的随机种子下,本文提出的方法都优于各种基准方法。代码已在 GitHub 上开源。
- 最近的相关研究包括“Multi-Objective Reinforcement Learning with Continuous Pareto Frontier Approximation”和“Multi-Objective Deep Reinforcement Learning”。
沙发等你来抢
去评论
评论
沙发等你来抢