鉴于基准数据集在社会和 MLR 科学组织中的核心作用,近年来它们也成为批判性调查的核心对象。尽管对基准数据集的关注越来越多,但令人惊讶的是,很少有人关注整个领域的数据集的使用和重用模式。
由加州大学洛杉矶分校和谷歌研究院联合发表的最新论文 Reduced, Reused and Recycled: The Life of aDataset in Machine Learning Research,则深入研究了这些动态,在 Papers With Code(PWC)语料库中研究数据集使用模式在机器学习子社区和时间(2015-2020 年)之间有何不同。
论文链接:
https://arxiv.org/abs/2112.01716
更具体地说,本文研究围绕不同机器学习任务(例如,情感分析和面部识别)从以下三个研究问题进行分析:
研究问题 1(RQ1):机器学习任务社区在特定数据集上的集中程度如何?随着时间的推移,这种情况是否发生了变化?
研究问题 2(RQ2):机器学习研究人员从其他任务借用数据集,而不是使用为该任务明确创建的数据集的频率如何?
研究问题 3(RQ3):哪些机构负责“流通”中的主要 ML 基准?
本文有以下几点发现:
1)任务社区高度集中在数量有限的数据集上,并且这种集中度随着时间的推移而增加
2)这些社区内用于基准测试的数据集的很大一部分最初是为不同的任务开发的。
3)全球数据集使用的不平等越来越严重,50% 以上正在被使用数据集来源于由十二个精英机构(主要是西方机构)引入的数据集。
4)在 NLP 社区中,集中在少数数据集上的更广泛趋势有所缓和,新数据集以更高的速度创建,而外部数据集的使用率更低。
可能的解释是:NLP 任务社区往往比其他任务社区更大,较大的 NLP 社区可能更加连贯,因此比其他任务社区以更高的速率生成和使用自己的数据集;另一种可能性是 NLP 数据集更容易管理,因为数据更容易访问、更容易标记或更小。这个难题的解决超出了此次研究的范围,但 NLP 数据集的独特性质为未来的工作提供了一个有趣的方向。
同时,本文还有两个更广泛的发现:
首先对特定基准进行一定程度的研究,对于建立基准的有效性和作为基准获得社区一致性是必要且有益的进步。
其次,大规模数据集的管理不仅在资源方面成本高昂,而且一些独特或特权数据可能只有少数精英学术和企业机构才能访问(例如,匿名医疗记录、自动驾驶汽车日志)。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢