- 简介大型语言模型的发展导致了一种“预训练-微调”范式,通常在大型文本语料库上对模型进行预训练,并进行微调以使模型与人类偏好或下游任务相一致。在本研究中,我们通过对多个中间预训练模型检查点进行微调,探究了预训练和微调之间的关系。我们在18个数据集上的结果表明:i)连续预训练以一种潜在的方式提高了模型的性能,在微调后才能显现出来;ii)通过额外的微调,模型在那些它之前表现不佳的数据集上的提升要比在那些它在预训练阶段表现良好的数据集上更多;iii)虽然模型通过监督微调获得了显著的收益,但它可能会忘记之前已知的领域知识和在微调期间未见过的任务;iv)在经过监督微调后,模型对评估提示的敏感度高,但这种敏感度可以通过更多的预训练来缓解。
- 图表
- 解决问题探究预训练与微调之间的关系,并提出一种连续预训练的方法来改善模型性能。
- 关键思路通过对多个中间预训练模型进行微调,发现连续预训练可以在微调后潜在地改善模型性能;在模型表现不佳的数据集上进行额外的微调可以带来更显著的提升;虽然模型在受监督微调时可以显著提高,但可能会忘记之前学习的领域知识和未参与微调的任务;模型在受监督微调后对评估提示具有高度敏感性,但可以通过更多的预训练来缓解这种敏感性。
- 其它亮点实验使用了18个数据集,证明了连续预训练的有效性,并探究了受监督微调对模型性能的影响。此外,研究还发现模型在微调后可能会忘记之前学习的知识,需要更多的预训练来缓解这个问题。
- 与本研究相关的其他研究包括《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》和《Language Models are Few-Shot Learners》等。
沙发等你来抢
去评论
评论
沙发等你来抢