- 简介本文提出一个理论框架,用以解决现代机器学习中的一个核心悖论:在什么情况下使用更少的数据反而更好?随着传统“越多越好”(Sun 等,2025)的标度律受到挑战,这一问题变得尤为关键。新兴方法如 LIMO(“越少越好”)和 s1(Ye 等,2025;Muenighoff 等,2025)表明,通过精心筛选的小规模数据集即可实现更优性能。本文研究了一类数据筛选策略,其中由一个不完美的 oracle 根据样本的难度和正确性来选择训练样本。我们的结果给出了在标签无关和标签感知两种筛选规则下测试误差的精确标度律曲线,揭示了为何仅保留部分数据反而能够提升泛化能力。与经典标度律不同,我们证明在特定条件下,经过筛选的小数据集可以优于完整数据集,并通过推导与数据规模和质量相关的精确相变曲线,给出了该现象发生的解析条件。我们在 ImageNet 上进行了实验验证,证实了理论预测:筛选确实能在特定情形下提升模型准确率,甚至可缓解模型崩溃现象。此外,我们的框架还为近期在大语言模型数学推理任务中观察到的相互矛盾的数据筛选策略提供了系统性的解释。
- 图表
- 解决问题论文试图解决现代机器学习中的一个核心悖论:在什么情况下使用更少的数据反而能带来更好的模型性能?这一问题随着‘更多数据更好’的经典缩放定律受到挑战而变得紧迫,尤其是在某些方法(如LIMO和s1)通过使用小而精心筛选的数据集取得更优表现的情况下。这个问题虽然源于实践经验,但此前缺乏系统的理论解释,因此具有新颖性和重要性。
- 关键思路提出一个理论框架,建模基于不完美 oracle 对训练样本按难度和正确性进行筛选的数据策展过程。推导出标签无关与标签感知策展策略下的精确测试误差缩放律,并揭示在特定条件下,小规模高质量数据集为何以及何时能够超越大规模全量数据的表现。关键新意在于引入相变曲线,从理论上界定数据量与数据质量之间的权衡边界。
- 其它亮点理论推导得到了在ImageNet上的实证支持,验证了数据策展如何提升准确率并可能缓解模型崩溃;实验设计结合真实场景与理论预测,增强了结论的可信度;框架还能解释大语言模型在数学推理任务中看似矛盾的策展策略(例如选择难或易样本)。目前未提及开源代码,但该理论为未来数据策展算法的设计提供了原则性指导,值得进一步探索在不同模型架构和任务中的泛化能力。
- 1. LIMO: Less is More for Optimization (Ye et al., 2025) 2. s1: A Data Selection Method that Works at Scale (Muenighoff et al., 2025) 3. Re-evaluating Scaling Laws for Modern Machine Learning (Sun et al., 2025)


提问交流