The Impact of Differential Feature Under-reporting on Algorithmic Fairness

简介

公共部门中的预测风险模型通常使用行政数据进行开发，这些数据对于更大程度依赖公共服务的亚群体来说更加完整。例如，在美国，医疗保健利用信息对于由医疗补助和医疗保险支持的个人通常可供政府机构使用，但对于私人保险则不可用。公共部门算法的批评指出，这种差异性特征未报告是算法决策不公的驱动因素。然而，这种数据偏差在技术视角下仍然鲜为人知。虽然先前的研究已经研究了加性特征噪声和明确标记为缺失的特征对公平性的影响，但缺失指标的数据缺失设置（即差异性特征未报告）缺乏研究关注。在本研究中，我们提出了一个分析可追踪的差异性特征未报告模型，然后用它来表征这种数据偏差对算法公平性的影响。我们展示了标准缺失数据方法通常无法减轻这种偏差，在此基础上提出了一组专门针对差异性特征未报告的方法。我们的结果表明，在真实数据环境中，未报告通常会导致不公平性的增加。所提出的解决方案方法在减轻不公平性方面取得了成功。
图表
解决问题

本文旨在解决公共部门中的数据偏差问题，特别是针对不同子人群使用公共服务的情况下数据不完整的问题，从技术角度探讨这种数据偏差对算法公平性的影响。
关键思路

本文提出了一种分析可行的模型，用于描述不同子人群使用公共服务情况下的数据偏差，并提出了一种新的方法来解决这种数据偏差问题，该方法相对于标准的缺失数据方法在减轻不公平性方面更有效。
其它亮点

本文在实际数据设置中表明，数据不完整通常会导致不公平性的增加。作者提出的解决方法在减轻不公平性方面表现出成功。本文的数据集来自美国的医疗保险数据。
相关研究

最近的相关研究包括关于算法公平性和数据偏差的许多研究，以及缺失数据方法的研究。

The Impact of Differential Feature Under-reporting on Algorithmic Fairness

评论