- 简介机器学习算法(ML)几乎影响着人类生活的方方面面,并在包括医疗保健、金融和教育在内的各个领域得到了应用。通常情况下,ML算法被发现会加剧数据集中存在的社会偏见,导致对某些个体、在许多情况下是少数群体产生敌对影响。为了有效地缓解这些不良影响,关键是在ML管道的早期阶段识别和评估差异/偏见。这种积极的方法有助于及时干预,以防止偏见放大,并减少模型开发后期的复杂性。在本文中,我们介绍了DispaRisk,这是一个新颖的框架,旨在在ML管道的初始阶段积极评估数据集中差异潜在风险。我们通过将其与公平研究中常用的数据集进行基准测试来评估DispaRisk的有效性。我们的研究结果表明,DispaRisk能够识别高风险歧视的数据集、容易产生偏见的模型族以及增加ML管道中歧视敏感性的特征。我们实验的代码可在以下存储库中找到:https://github.com/jovasque156/disparisk。
- 图表
- 解决问题DispaRisk旨在解决机器学习算法中存在的数据集偏差问题,这些偏差会导致对某些人群的不利影响,尤其是少数群体。
- 关键思路DispaRisk是一个新的框架,旨在在机器学习流程的早期阶段就识别和评估数据集中的偏差风险,以便及时采取干预措施以减少后续模型开发阶段的偏差。
- 其它亮点论文通过对公认的公平性研究数据集进行基准测试,证明了DispaRisk识别高风险偏差数据集、模型族和特征的能力。研究者还提供了用于实验的代码库。
- 在这个领域中,还有其他一些相关的研究,如Calmon等人的“Optimized Pre-Processing for Discrimination Prevention”和Kamiran等人的“Data Preprocessing Techniques for Classification without Discrimination”等。
沙发等你来抢
去评论
评论
沙发等你来抢