- 简介在支撑ChatGPT和Llama等大型神经网络的扩展规律范式中,我们考虑了一个监督回归设置,并建立了一种强形式的模型崩溃现象,即由于训练语料库中的合成数据而导致的关键性能下降。我们的结果表明,即使是最小比例的合成数据(例如,总训练数据集的1%),仍然可能导致模型崩溃:越来越大的训练集并不能提高性能。我们进一步研究了增加模型大小是否会加剧或减轻模型崩溃,这是与当前大型语言模型训练趋势一致的方法。在一种简化的情况下,通过可调大小的随机投影逼近神经网络,我们在理论和实证上都表明,更大的模型可能会放大模型崩溃。有趣的是,我们的理论还表明,在插值阈值之上(对于非常大的数据集可能非常高),更大的模型可能会减轻崩溃,尽管它们并不能完全防止崩溃。我们的理论发现通过对语言模型和图像的前馈神经网络进行实验进行了实证验证。
- 图表
- 解决问题研究大规模神经网络训练中的模型崩溃现象,探讨合成数据对模型性能的影响,以及增大模型规模对模型崩溃的影响
- 关键思路通过理论和实验,证明即使是极小比例的合成数据也可能导致模型崩溃,增大模型规模可能会加剧模型崩溃,但在插值阈值之上,增大模型规模可能会缓解模型崩溃
- 其它亮点论文使用了大量实验验证理论结论,还提供了开源代码,值得关注的是即使极小比例的合成数据也可能导致模型崩溃,增大模型规模可能会加剧模型崩溃,但在插值阈值之上,增大模型规模可能会缓解模型崩溃
- 最近相关研究包括《On the Spectral Bias of Neural Networks》、《Understanding deep learning requires rethinking generalization》等
沙发等你来抢
去评论
评论
沙发等你来抢