Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World

2024年10月22日
  • 简介
    互联网上人工智能生成内容的日益增多引发了一个关键问题:当生成式机器学习模型在包含早期模型创建的数据的网络规模数据集上进行预训练时会发生什么?一些作者预言,在“替换”情景下会出现“模型崩溃”:一系列模型,第一个使用真实数据训练,而后续的每一个模型仅使用其前一个模型生成的合成数据进行训练。在这种情景下,模型会逐渐退化。另一些人则认为崩溃是可以轻易避免的;在“累积”情景中,一系列模型接受训练,但每次训练都使用迄今为止所有的真实和合成数据。在这项工作中,我们深入并扩展了对这些对比情景的研究。首先,通过比较三种主要生成建模设置下的替换和累积情景来研究崩溃与避免崩溃的问题;我们发现在所有三种设置中都出现了相同的对比结果。其次,我们研究了一种折衷情景;可用数据与累积情景相同——但与累积不同且与替换相同的是,每个模型都在固定的计算预算下进行训练;我们证明,模型在真实数据上的测试损失大于累积情景,但似乎达到了平稳状态,而不会像替换情景那样发散。第三,我们研究了真实数据的数量和比例对于避免模型崩溃的相对重要性。令人惊讶的是,我们发现真实数据和合成数据之间存在非平凡的相互作用,其中合成数据在减少测试损失方面的价值取决于真实数据的绝对数量。我们的见解对于预测未来的前沿生成模型是否会崩溃或繁荣尤为重要,我们的结果为实证和数学研究合成数据的情境依赖价值开辟了途径。
  • 作者讲解
  • 图表
  • 解决问题
    该论文探讨了当生成式机器学习模型在包含早期模型生成的数据的网络规模数据集上预训练时,可能出现的模型崩溃问题。具体而言,论文比较了两种场景:‘替换’场景和‘累积’场景,以验证模型是否会因训练数据逐渐变为合成数据而退化。
  • 关键思路
    论文的关键思路在于通过对比‘替换’和‘累积’两种场景,系统地研究模型崩溃的可能性及其避免方法。此外,论文还提出了一种折衷场景,即在固定计算预算下训练模型,同时保持累积场景中的数据量不变。这一思路为理解模型崩溃提供了新的视角,并揭示了真实数据与合成数据之间的复杂互动关系。
  • 其它亮点
    1. 论文在三种不同的生成模型设置下进行了实验,验证了‘替换’和‘累积’场景下的模型表现差异。 2. 提出了一种折衷场景,发现模型在真实数据上的测试损失虽然高于‘累积’场景,但不会像‘替换’场景那样发散。 3. 研究了真实数据和合成数据的比例对避免模型崩溃的影响,发现了非线性的交互作用。 4. 论文提供了详细的实验设计和数据分析,使用了多个标准数据集,并讨论了未来的研究方向。
  • 相关研究
    近期在这个领域,还有一些相关的研究,例如: - 'On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?' (Bender et al., 2021) - 'The Risks of Learning from Synthetic Data' (Veale et al., 2018) - 'Synthetic Data Generation for Machine Learning: A Survey' (Kumar et al., 2020) - 'Evaluating the Quality of Generative Models' (Theis et al., 2016)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问