摘要:广泛观察到的神经缩放定律,其中误差随着训练集大小、模型大小或两者的影响而下降,推动了深度学习的显着性能改进。然而,这些仅通过扩展实现的改进需要相当大的计算和能源成本。在这里,我们专注于误差随数据集大小的缩放,并展示我们如何在理论和实践中突破幂律缩放并将其减少到指数缩放,而不是如果我们可以访问高质量的数据修剪指标,该指标将顺序排列在应该丢弃哪些训练示例以实现任何修剪的数据集大小。然后,我们在经验上用修剪过的数据集大小测试了这个新的指数缩放预测,并且确实在 CIFAR-10、SVHN 和 ImageNet 上训练的 ResNet 上观察到比幂律缩放性能更好。鉴于找到高质量修剪指标的重要性,我们在 ImageNet 上对十种不同的数据修剪指标进行了第一次大规模基准测试研究。我们发现大多数现有的高性能指标无法适应 ImageNet,而最好的指标是计算密集型的,并且需要为每张图像添加标签。因此,我们开发了一种新的简单、廉价且可扩展的自我监督修剪指标,该指标展示了与最佳监督指标相当的性能。总体而言,我们的工作表明,发现良好的数据修剪指标可能会为大幅改进神经缩放定律提供一条可行的途径,从而降低现代深度学习的资源成本。

r/MachineLearning - [R] Beyond neural scaling laws: beating power law scaling via data pruning - Meta AIr/MachineLearning - [R] Beyond neural scaling laws: beating power law scaling via data pruning - Meta AI

内容中包含的图片若涉及版权问题,请及时与我们联系删除