- 简介随着生成模型的不断涌现,加上在网络规模数据上的预训练,一个及时的问题浮现:当这些模型用自己生成的输出进行训练时会发生什么?最近的研究发现,模型和数据之间的反馈循环可能导致模型崩溃,即性能随着每次模型拟合迭代而逐渐降低,直到最新的模型变得无用。然而,最近几篇研究模型崩溃的论文假设新数据随时间取代旧数据,而不是假设数据随时间积累。在本文中,我们比较这两种情况,并表明积累数据可以防止模型崩溃。我们首先研究一个分析可追踪的设置,其中一系列线性模型适合于之前模型的预测。以前的工作表明,如果数据被替换,测试误差随着模型拟合迭代次数的增加呈线性增长;我们通过证明,如果数据积累,测试误差具有独立于迭代次数的有限上界来扩展这个结果。接下来,我们通过在文本语料库上预训练语言模型序列来实验性地测试积累数据是否同样可以防止模型崩溃。我们证实,替换数据确实会导致模型崩溃,然后证明积累数据可以防止模型崩溃;这些结果适用于各种模型大小、架构和超参数。我们进一步展示,在真实数据上,类似的结果也适用于其他深度生成模型:用于分子生成的扩散模型和用于图像生成的变分自编码器。我们的工作提供了一致的理论和实证证据,证明了数据积累可以缓解模型崩溃。
- 图表
- 解决问题论文研究生成模型在自己生成的输出上进行训练时可能出现的模型崩溃问题,并探讨是否累积数据能够避免这种问题。
- 关键思路论文证明了当数据累积时,测试误差具有一个独立于迭代次数的有限上界,从而避免了模型崩溃问题。论文还通过预训练语言模型、扩散模型和变分自编码器等模型的实验验证了这个结论。
- 其它亮点论文的实验结果表明,当数据被替换时会导致模型崩溃,而当数据累积时可以避免这种问题。论文提供了一种新的解决模型崩溃问题的思路,并且在多个模型和数据集上进行了实验验证。论文还提供了开源代码。
- 相关研究包括以前的模型崩溃问题研究,以及最近的生成模型和自我监督学习等方面的研究。
沙发等你来抢
去评论
评论
沙发等你来抢