Scaling laws for learning with real and surrogate data

简介

收集大量高质量数据通常非常昂贵或不切实际，是机器学习中的一个关键瓶颈。相反，可以将来自目标分布的小型数据集$n$与来自更易获取的来源（如公共数据集、在不同情况下收集的数据或由生成模型合成的数据）进行合并。我们将这样的数据称为“替代数据”。我们定义了一种简单的方案来将替代数据整合到训练中，并使用理论模型和实证研究来探索其行为。我们的主要发现是：$(i)$整合替代数据可以显著降低原始分布上的测试误差；$(ii)$为了获得这种好处，使用最优加权经验风险最小化至关重要；$(iii)$在混合使用真实数据和替代数据训练的模型的测试误差可以很好地用一个缩放定律描述。这可以用于预测最优权重和替代数据的收益。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何利用代理数据来降低机器学习的测试误差？
关键思路

使用代理数据来增强目标分布的小数据集，可以显著降低测试误差。同时，使用加权的经验风险最小化是至关重要的，可以预测最佳加权和代理数据带来的收益。
其它亮点

论文提出了一种简单的方案来整合代理数据，并使用理论模型和实证研究来探索其行为。实验结果表明，使用代理数据可以显著降低测试误差，并且可以使用缩放定律来预测最佳加权和代理数据带来的收益。
相关研究

相关研究包括使用生成模型合成数据、利用不同条件下收集的数据和公共数据集等。

Scaling laws for learning with real and surrogate data

提问交流

提问交流