Position: Measure Dataset Diversity, Don't Just Claim It

简介

机器学习（ML）数据集通常被认为是中立的，但实际上它们内在地包含了抽象和有争议的社会构造。数据集的策展人经常使用带有价值观色彩的术语，如多样性、偏见和质量来描述数据集。尽管这些术语很普遍，但它们缺乏明确的定义和验证。我们的研究通过分析135个图像和文本数据集中的“多样性”来探讨这个问题的影响。我们借鉴社会科学的原则，应用测量理论的原则来确定考虑因素，并提供概念化、操作化和评估数据集多样性的建议。我们的研究结果对于机器学习研究具有更广泛的意义，主张在数据集构建中处理带有价值观色彩的属性时采用更加细致和精确的方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何更准确地处理数据集中的价值属性，例如多样性、偏见和质量？
关键思路

运用测量理论的原则，提出了更精细和准确的数据集多样性概念，并对135个图像和文本数据集进行了分析和评估。
其它亮点

论文提出了一种新的方法来衡量数据集的多样性，同时提供了实用的建议。实验使用了大量的数据集，并提供了开源代码。研究结果对于机器学习领域有广泛的意义。
相关研究

在这个领域中，最近的相关研究包括：“Towards Fairness in Visual Recognition: Effective Strategies for Bias Mitigation”、“The Measure and Mismeasure of Fairness: A Critical Review of Fair Machine Learning”等。

Position: Measure Dataset Diversity, Don't Just Claim It

提问交流

提问交流