- 简介鉴于当前数据产生的数量和速度之巨,机器学习的应用变得越来越重要。当数据包含可能引起歧视的受保护特征时,必须特别小心。在这些情况下,数据质量至关重要,因为训练数据中的偏差可能会反映在分类模型中。这将产生灾难性后果,并未能遵守当前的法规。数据中心人工智能提出了数据集修改以提高其质量。通过欠采样进行实例选择可以促进分类器中类和受保护特征值的平衡学习。当这种欠采样接近决策边界时,对分类器的影响将得到加强。本研究提出了公平重叠球数(Fair-ONB)方法,这是一种欠采样方法,利用不同数据组(由类和受保护特征值的组合获得)的数据形态,在它们重叠的区域进行引导式欠采样。它利用球覆盖组的属性,例如半径、覆盖实例数和密度,选择最适合进行欠采样的区域,以减少偏差。结果表明,Fair-ONB方法可以减少偏差,对分类器的预测性能影响较小。
- 图表
- 解决问题如何解决含有保护特征的数据在机器学习中可能引起的歧视问题?
- 关键思路使用数据形态进行有指导性的欠采样,以减少偏差。
- 其它亮点论文提出了一种基于球形覆盖的欠采样方法Fair-ONB,通过数据形态在不同数据组之间进行有指导性的欠采样,以减少偏差。实验结果表明,该方法在减少偏差的同时对分类器的预测性能影响较小。
- 相关研究包括基于欠采样的方法,如EasyEnsemble和BalanceCascade,以及其他数据修正方法,如重加权和重采样。
沙发等你来抢
去评论
评论
沙发等你来抢