Traversing Pareto Optimal Policies: Provably Efficient Multi-Objective Reinforcement Learning

向作者提问

NEW

简介

本文研究了多目标强化学习（MORL），该方法旨在在多个奖励函数存在的情况下学习帕累托最优策略。尽管MORL在实践中取得了显著的成功，但对于各种MORL优化目标和有效的学习算法仍缺乏令人满意的理解。我们的工作对几种优化目标进行了系统分析，以评估它们找到所有帕累托最优策略的能力以及通过不同目标的偏好对学习策略的可控性。然后，我们确定了Tchebycheff标量化作为MORL的有利标量化方法。考虑到Tchebycheff标量化的不光滑性，我们将其最小化问题重新制定为新的min-max-max优化问题。然后，针对随机策略类，我们提出了使用此重新制定的算法来学习帕累托最优策略的有效算法。我们首先提出了一种在线UCB算法，以实现单个给定偏好的$\varepsilon$学习误差和$\tilde{\mathcal{O}}(\varepsilon^{-2})$样本复杂度。为了进一步降低在不同偏好下环境探索的成本，我们提出了一个无偏好的框架，该框架首先在没有预定义偏好的情况下探索环境，然后为任意数量的偏好生成解决方案。我们证明，它仅需要一个$\tilde{\mathcal{O}}(\varepsilon^{-2})$的探索复杂度在探索阶段，并且之后不需要额外的探索。最后，我们分析了平滑的Tchebycheff标量化，即Tchebycheff标量化的扩展，证明了它在基于偏好向量的条目值来区分帕累托最优策略和其他弱帕累托最优策略方面更具优势。此外，我们扩展了我们的算法和理论分析，以适应这种优化目标。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

多目标强化学习(MORL)的优化目标和高效学习算法仍然缺乏令人满意的理解。本文通过系统分析几种优化目标来评估它们发现所有帕累托最优策略的能力和通过不同目标的偏好对学习策略的可控性。作者确定Tchebycheff标量化方法作为MORL的有利标量化方法。
关键思路

通过Tchebycheff标量化方法，将其最小化问题重新表述为新的min-max-max优化问题，并提出了基于UCB的在线算法和无偏好框架来学习帕累托最优策略。同时分析了平滑Tchebycheff标量化的优势。
其它亮点

本文提出了基于UCB的在线算法和无偏好框架来学习帕累托最优策略，并且证明了它们的复杂性。同时分析了平滑Tchebycheff标量化的优势。
相关研究

相关研究包括：Multi-objective Reinforcement Learning using Sets of Pareto Dominating Policies (2010)、Multi-objective Reinforcement Learning: A Comprehensive Overview (2018)、Multi-objective Reinforcement Learning: Some Solutions and Directions (2018)等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问