- 简介多目标强化学习(MORL)对于解决现实世界中强化学习问题的复杂性至关重要,这些问题通常需要在多个效用函数之间进行权衡。然而,由于基于深度学习的函数逼近器的不稳定学习动态,MORL具有挑战性。最常采取的研究路径是探索不同的基于价值的损失函数来克服这个问题。我们的工作在经验上探索了模型无关的策略学习损失函数以及不同架构选择的影响。我们引入了两种不同的方法:多目标近端策略优化(MOPPO),它将PPO扩展到MORL,以及多目标优势演员评论家(MOA2C),它在我们的削减中作为一个简单的基准。我们提出的方法实现简单,只需要在函数逼近器的级别进行小的修改。我们对MORL Deep Sea Treasure、Minecart和Reacher环境进行了全面评估,并展示了MOPPO有效地捕捉了帕累托前沿。我们广泛的削减研究和经验分析揭示了不同架构选择的影响,强调了MOPPO相对于流行的MORL方法(如帕累托条件网络(PCN)和包络Q学习)在MORL指标(包括超体积和预期效用)方面的健壮性和多功能性。
- 图表
- 解决问题本论文旨在解决多目标强化学习中,使用深度学习进行函数逼近时,学习动态不稳定的问题。同时,论文试图探索不同的模型无关的策略学习损失函数和不同的架构选择对多目标强化学习的影响。
- 关键思路论文提出了两种不同的方法:Multi-objective Proximal Policy Optimization (MOPPO)和Multi-objective Advantage Actor Critic (MOA2C)。MOPPO是对PPO进行扩展,用于多目标强化学习,而MOA2C则是我们实验中的一个简单基线。这两种方法都是基于模型无关的策略学习损失函数,并且只需要在函数逼近器的级别进行小的修改。实验结果表明,MOPPO能够有效地捕捉Pareto前沿。
- 其它亮点论文在MORL Deep Sea Treasure、Minecart和Reacher环境中进行了全面的评估,并展示了MOPPO相对于流行的MORL方法(如Pareto Conditioned Networks和Envelope Q-learning)在MORL指标方面(包括超体积和期望效用)的鲁棒性和通用性。此外,论文还进行了广泛的消融研究和实证分析,揭示了不同架构选择的影响。
- 在这个领域中,最近的相关研究包括:Pareto Q-learning: End-to-end Multi-Objective Deep Reinforcement Learning、Pareto Deep Q-Networks、Multi-Objective Reinforcement Learning with Continuous Pareto Frontier Approximation、和Multi-Objective Reinforcement Learning with Diversity-Promoting Policy Gradient。
沙发等你来抢
去评论
评论
沙发等你来抢