Position: Measure Dataset Diversity, Don't Just Claim It

2024年07月11日
  • 简介
    机器学习(ML)数据集通常被认为是中立的,但实际上它们内在地包含了抽象和有争议的社会构造。数据集的策展人经常使用带有价值观色彩的术语,如多样性、偏见和质量来描述数据集。尽管这些术语很普遍,但它们缺乏明确的定义和验证。我们的研究通过分析135个图像和文本数据集中的“多样性”来探讨这个问题的影响。我们借鉴社会科学的原则,应用测量理论的原则来确定考虑因素,并提供概念化、操作化和评估数据集多样性的建议。我们的研究结果对于机器学习研究具有更广泛的意义,主张在数据集构建中处理带有价值观色彩的属性时采用更加细致和精确的方法。
  • 作者讲解
  • 图表
  • 解决问题
    如何更准确地处理数据集中的价值属性,例如多样性、偏见和质量?
  • 关键思路
    运用测量理论的原则,提出了更精细和准确的数据集多样性概念,并对135个图像和文本数据集进行了分析和评估。
  • 其它亮点
    论文提出了一种新的方法来衡量数据集的多样性,同时提供了实用的建议。实验使用了大量的数据集,并提供了开源代码。研究结果对于机器学习领域有广泛的意义。
  • 相关研究
    在这个领域中,最近的相关研究包括:“Towards Fairness in Visual Recognition: Effective Strategies for Bias Mitigation”、“The Measure and Mismeasure of Fairness: A Critical Review of Fair Machine Learning”等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问