Scaling Laws for the Value of Individual Data Points in Machine Learning

简介

最近的研究表明，随着训练数据总量的增加，机器学习模型的性能会以可预测的速度提高，导致出现描述误差和数据集大小之间关系的缩放定律。这些缩放定律可以帮助设计模型的训练数据集，但它们通常只考虑数据集的大小，从而对数据采取了汇总的视角。我们通过研究单个数据点的价值缩放行为，引入了一种新的视角：我们发现数据点对模型性能的贡献会以对数线性的方式随着数据集的大小可预测地缩小。有趣的是，不同数据点之间的缩放指数存在显著的变异性，表明某些数据点在小数据集中更有价值，而其他数据点则作为大数据集的一部分相对更有用。我们提供了学习理论来支持我们的缩放定律，并观察到它在不同的模型类别中都成立。我们进一步提出了最大似然估计器和摊销估计器，以从每个数据点的少量噪声观测中高效地学习个性化的缩放行为。使用我们的估计器，我们提供了影响不同数据点缩放行为的因素的见解。最后，我们展示了个性化缩放定律在数据估值和数据子集选择方面的应用。总体而言，我们的工作是理解和利用单个数据点的价值缩放性质的第一步。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图通过研究数据点的价值与数据集大小之间的关系，解决如何更好地设计模型训练数据集的问题。
关键思路

论文提出了一种新的视角，研究了数据点对模型性能的贡献随数据集大小变化的规律，并发现不同数据点的贡献随数据集大小变化的指数存在显著差异。
其它亮点

论文提出了两种估计器，可以高效地学习数据点的个性化贡献随数据集大小变化的规律，并应用于数据估值和数据子集选择。实验验证了该规律在不同模型类别中的适用性。
相关研究

最近的相关研究包括《Understanding deep learning requires rethinking generalization》、《The unreasonable effectiveness of deep learning》等。

Scaling Laws for the Value of Individual Data Points in Machine Learning

提问交流

提问交流