Entropic Distribution Matching in Supervised Fine-tuning of LLMs: Less Overfitting and Better Diversity

2024年08月29日
  • 简介
    大型语言模型依赖于监督微调(SFT)来专门处理下游任务。交叉熵(CE)损失是SFT的事实选择,但它经常导致过度拟合和有限的输出多样性,因为它对数据分布的更新过于激进。本文旨在通过引入最大熵原理来解决这些问题,该原理支持具有更平坦分布但仍有效捕获数据的模型。具体而言,我们开发了一种新的分布匹配方法称为GEM,它使用熵正则化器解决反向Kullback-Leibler散度最小化问题。 对于Llama-3-8B模型的SFT,GEM在几个方面优于CE。首先,当应用于UltraFeedback数据集以开发通用的指令跟随能力时,GEM表现出降低过拟合的特点,表现为更低的困惑度和更好的IFEval基准性能。此外,GEM增强了输出多样性,使用最佳n采样在数学推理和代码生成任务上获得了高达7个点的性能增益,即使没有特定于领域的数据。其次,当使用特定于领域的数据集进行微调以进行数学推理和代码生成时,GEM也显示出更少的过拟合和高达10个点的改进,与CE相比。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图通过引入最大熵原则来解决监督微调中的过拟合和输出多样性不足的问题。
  • 关键思路
    论文提出了一种新的分布匹配方法GEM,通过最小化反向KL散度并引入熵正则化器来解决问题。
  • 其它亮点
    GEM在使用UltraFeedback数据集进行通用指令遵循能力开发时,相比CE表现出更少的过拟合,更好的IFEval基准表现,同时增强了输出多样性,在数学推理和代码生成任务中使用best-of-n采样的情况下性能提高了7个点;在使用数学推理和代码生成的特定数据集进行微调时,GEM也表现出更少的过拟合和高达10个点的性能提升。实验使用了UltraFeedback、Llama-3-8B等数据集,开源了相关代码。
  • 相关研究
    最近的相关研究包括《On the Generalization of Contrastive Learning in Language Modeling》、《Pre-training with Contrastive Sentence Objectives Improves Discourse Performance of Language Models》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问