- 简介虽然文献中存在几种公平定义和偏差缓解技术,但所有现有的解决方案都是在训练阶段后评估机器学习(ML)系统的公平性。本文首次采取更全面的方法,通过在模型训练前后测试公平性来评估此方法的有效性,并将其定位于ML开发生命周期中。通过对模型相关和独立公平度量之间关系的实证分析,使用2种公平度量、4种ML算法、5个真实世界数据集和1600个公平度量周期,我们评估了所提出方法的有效性。我们发现,当训练数据的分布和大小发生变化时,数据和模型公平度量之间存在线性关系。我们的研究结果表明,在训练之前测试公平性可以是早期发现偏见数据收集过程的“便宜”且有效的手段;在生产系统中检测数据漂移并最小化执行完整训练周期,从而减少开发时间和成本。
- 图表
- 解决问题本文试图通过在模型训练前后测试公平性来解决机器学习系统公平性评估的问题。该方法能够在数据收集过程中及时发现偏差,减少开发时间和成本。
- 关键思路本文提出了在模型训练前后测试公平性的方法,并通过实验表明,该方法能够在数据分布和大小发生变化时,发现数据收集过程中的偏差。该方法能够提高开发效率,减少成本。
- 其它亮点本文使用了2个公平性指标、4种机器学习算法和5个真实世界数据集进行了1600次公平性评估。实验结果表明,当数据分布和大小发生变化时,数据公平性指标和模型公平性指标存在线性关系。本文提出的方法能够在模型训练前及时发现数据收集过程中的偏差,提高开发效率,减少成本。
- 在这个领域中,最近的相关研究包括:《A survey of bias and fairness in machine learning》、《Fairness and machine learning》、《Mitigating Unwanted Biases with Adversarial Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢