Efficient Continual Pre-training by Mitigating the Stability Gap

  • 简介
    持续预训练已经成为适应新领域的大型语言模型(LLMs)的主要方法。这个过程包括使用来自新领域的语料库更新预训练的LLM,导致训练分布的变化。为了研究LLMs在这种变化过程中的行为,我们测量了模型在整个持续预训练过程中的表现。我们观察到在开始时会出现临时性能下降,随后是恢复阶段,这是一个被称为“稳定间隔”的现象,先前在分类新类别的视觉模型中已经注意到。为了解决这个问题并在固定的计算预算内提高LLM的性能,我们提出了三种有效的策略:(1)持续预训练LLM的子集,对多个时期进行适当大小的更新,比在单个时期中对LLM进行大语料库的预训练更快地恢复性能;(2)仅在高质量的子语料库上预训练LLM,可以快速提高领域性能;(3)使用类似于预训练数据的数据混合来减少分布差距。我们在Llama家族模型上进行了各种实验,以验证我们的策略在医学持续预训练和指令调整中的有效性。例如,我们的策略将OpenLlama-3B模型的平均医学任务性能从36.2%提高到40.7%,仅使用原始训练预算的40%,并提高了平均通用任务性能,而不会导致遗忘。此外,我们将我们的策略应用于Llama-3-8B模型。由此产生的模型Llama-3-Physician在当前开源模型中实现了最佳的医学表现,并在一些医学基准测试中表现出与GPT-4相当甚至更好的性能。我们在\url{https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct}发布了我们的模型。
  • 图表
  • 解决问题
    论文旨在解决LLMs在新领域中的持续预训练过程中的性能下降问题,即“稳定性差距”,并提出三种策略以增强LLMs的性能。
  • 关键思路
    论文提出了三种策略以解决稳定性差距问题:(1)将LLM连续预训练于大小适当的子集上,比在单个大语料库中进行预训练更快地恢复性能;(2)仅在高质量子语料库上进行预训练,可以迅速提高领域性能;(3)使用类似于预训练数据的数据混合物以减少分布差距。
  • 其它亮点
    实验结果表明,这些策略可以显著提高LLMs的性能,而不会导致遗忘。例如,OpenLlama-3B模型的平均医学任务性能从36.2%提高到40.7%,仅使用原始训练预算的40%。此外,应用这些策略到Llama-3-8B模型上,得到了Llama-3-Physician模型,其在医学基准测试中表现优于当前开源模型,并且在一些医学基准测试上与甚至优于GPT-4。作者还公开了他们的模型和代码。
  • 相关研究
    最近的相关研究主要集中在LLMs的持续预训练和微调方面,包括使用不同的预训练数据集、微调数据集和微调策略等。例如,一些研究探讨了如何在少量数据上进行微调,而另一些研究则关注于如何在多个领域中进行微调。一些研究还尝试使用元学习来加速微调过程。相关论文包括“Revisiting Few-sample BERT Fine-tuning”、“Multi-Task Learning for COVID-19 Drug Repurposing”等。
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论