【标题】Socially Fair Reinforcement Learning

【作者团队】Debmalya Mandal, Jiarui Gan

【发表日期】2022.8.29

【论文链接】https://arxiv.org/pdf/2208.12584

【推荐理由】本文考虑了具有不同奖励函数的多个利益相关者的情景强化学习问题。本文的目标是制定一项针对不同奖励功能的社会公平政策。先前的工作提出了公平政策必须优化的不同目标,包括最低福利和广义基尼福利。本文首先对这个问题采取公理化的观点,并提出任何这样的公平目标必须满足的四个公理。本文证明,纳什社会福利是唯一满足所有四个目标的唯一目标,而先前的目标无法满足所有四条公理。然后,考虑问题的学习版本,其中基础模型即马尔可夫决策过程是未知的。作者考虑了公平政策最大化三个不同公平目标(最低福利、广义基尼福利和纳什社会福利)的遗憾最小化问题。在乐观规划的基础上,提出了一种通用学习算法,并推导了它对于三种不同策略的遗憾界。为了实现纳什社会福利的目标,本文还推导了遗憾的下界,该下界随智能体数n呈指数增长。