【标题】gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement Learning Approach

【作者团队】Johannes Dornheim

【发表日期】2022.4.11

【论文链接】https://arxiv.org/pdf/2204.04988.pdf

【推荐理由】在现实世界的决策优化中,通常必须考虑多个相互竞争的目标。与经典的强化学习不同,多目标强化学习 (MORL) 方法从每个目标奖励的向量中学习。在多策略 MORL 的情况下,针对冲突目标的各种偏好的决策策略集被优化。虽然基于线性标量化扩展 MORL 的单目标强化学习方法很简单,但这些方法可达到的解决方案仅限于 Pareto 前沿的凸区域。 非线性 MORL 方法(如阈值词典排序 (TLO))旨在克服这一限制。广义 MORL 方法利用函数逼近来泛化目标偏好,从而以数据有效的方式隐式学习多个策略。本文提出了广义阈值词典排序 (gTLO),这是一种旨在将非线性 MORL 与广义 MORL 的优点相结合的新方法。文中介绍了该算法的深度强化学习实现,并在非线性 MORL 的标准基准和制造过程控制领域的实际应用中展示了有希望的结果。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除