UCB-driven Utility Function Search for Multi-objective Reinforcement Learning

2024年05月01日
  • 简介
    在多目标强化学习(MORL)中,代理被赋予优化决策行为的任务,这些行为在多个可能冲突的目标之间进行权衡。基于分解的MORL是一类解决方案方法,它采用多个效用函数将多目标问题分解为单独的单目标问题,同时解决这些问题以近似一个Pareto前沿的策略。我们专注于线性效用函数的情况,其参数由权重向量w确定。我们提出了一种基于上置信界(Upper Confidence Bound)的方法,在学习过程的不同阶段高效地搜索最有前途的权重向量,以最大化所得Pareto前沿的超体积。实验证明,所提出的方法在Mujoco基准问题上的各种随机种子上优于各种MORL基线。该代码在线上提供:https://github.com/SYCAMORE-1/ucb-MOPPO。
  • 图表
  • 解决问题
    本文旨在解决多目标强化学习中的权衡问题,提出了一种基于上置信界的方法来搜索最有前途的权重向量,以最大化 Pareto 前沿的超体积。
  • 关键思路
    本文提出的解决方案是一种基于分解的多目标强化学习方法,通过使用多个效用函数将多目标问题分解为单目标问题,并同时解决这些单目标问题,以逼近 Pareto 前沿。
  • 其它亮点
    本文使用了基于上置信界的方法来搜索最有前途的权重向量,以最大化 Pareto 前沿的超体积。实验使用了 Mujoco 基准问题,并且在不同的随机种子下,本文提出的方法都优于各种基准方法。代码已在 GitHub 上开源。
  • 相关研究
    最近的相关研究包括“Multi-Objective Reinforcement Learning with Continuous Pareto Frontier Approximation”和“Multi-Objective Deep Reinforcement Learning”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论