Beyond Model Collapse: Scaling Up with Synthesized Data Requires Reinforcement

2024年06月11日
  • 简介
    合成模型生成的数据越来越被视为大型语言模型微调的人工注释数据的替代选择。这引起了有关模型崩溃的担忧:即在生成数据上微调的模型性能下降。考虑到对于人类和机器来说,区分好坏示例比生成高质量样本更容易,我们研究了在合成数据上使用反馈来防止模型崩溃。我们推导了一些理论条件,使得高斯混合分类模型在训练反馈增强的合成数据时可以达到渐进最优性能,并为有限范围提供了支持模拟。我们在两个实际问题上说明了我们的理论预测:使用Transformer计算矩阵特征值和使用大型语言模型进行新闻摘要,这两个问题在使用模型生成数据进行训练时都会遭遇模型崩溃。我们展示了通过修剪不正确的预测或从多个猜测中选择最佳猜测来从反馈增强的合成数据中进行训练可以防止模型崩溃,从而验证了像RLHF这样的流行方法。
  • 图表
  • 解决问题
    论文旨在解决使用生成模型合成数据进行大型语言模型微调时出现的模型崩溃问题。并通过反馈机制来避免模型崩溃。是否为新问题需要进一步考量。
  • 关键思路
    通过使用反馈增强的合成数据训练高斯混合分类模型,可以在理论上达到渐近最优的性能,并在实践中通过对两个实际问题的验证得到证实。
  • 其它亮点
    论文使用反馈机制来避免使用生成模型合成数据进行大型语言模型微调时出现的模型崩溃问题。实验验证了该方法在两个实际问题中的有效性,并提供了相应的理论支持。论文提出的方法可以用于其他任务中。论文还提供了开源代码。
  • 相关研究
    与本文相关的研究包括:《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Fine-Tuning Language Models from Human Preferences》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论