- 简介在涉及种族和性别等敏感属性的顺序决策问题中,强化学习(RL)代理必须在最大化回报的同时仔细考虑长期公平性。最近的研究提出了许多不同类型的公平概念,但是在RL问题中不公平性是如何产生的仍不清楚。本文通过因果透镜研究不平等的根源,填补了文献中的这一空白。我们首先分析了数据生成过程中的因果关系,并将敏感属性对长期福利的影响分解为不同的组成部分。然后,我们引入了一种新的概念,称为动态公平性,它明确地捕捉了来自环境动态的不平等,区别于由决策制定或从过去继承的不平等。这个概念需要评估改变敏感属性的值时,预期下一个状态和奖励的变化,同时保持其他因素不变。为了定量评估这个反事实的概念,我们推导出识别公式,从而允许我们从数据中获得可靠的估计。大量实验表明,所提出的技术在解释、检测和减少强化学习中的不平等方面是有效的。我们在https://github.com/familyld/InsightFair上公开发布代码。
- 解决问题研究如何在强化学习中平衡长期公平性和回报最大化
- 关键思路引入动态公平性概念,通过因果分析研究敏感属性对长期福利的影响,提出了一种新的公平性度量方法,并通过数据估计公平性度量值
- 其它亮点提出了动态公平性的概念,通过因果分析研究了敏感属性对长期福利的影响,提出了一种新的公平性度量方法,并通过数据估计公平性度量值。作者进行了大量实验来验证提出的方法,并公开了代码。
- 最近在这个领域中,还有一些相关的研究,例如“Learning Fair Representations with Minimal Supervision”、“Fairness in Reinforcement Learning: A State-of-the-Art Survey”等
沙发等你来抢
去评论
评论
沙发等你来抢