When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method

简介

虽然大型语言模型（LLMs）通常采用微调来释放其下游应用的能力，但我们对不同微调方法的归纳偏差（特别是缩放属性）的理解仍然有限。为了填补这一空白，我们进行了系统实验，研究不同缩放因素（包括LLM模型大小、预训练数据大小、新微调参数大小和微调数据大小）是否以及如何影响微调性能。我们考虑了两种微调类型——全模型微调（FMT）和参数高效微调（PET，包括提示微调和LoRA），并探索它们在数据有限的情况下的缩放行为，其中LLM模型大小远远超过微调数据大小。基于两组预训练的双语LLMs从1B到16B和双语机器翻译和多语言摘要基准测试的实验，我们发现：1）LLM微调遵循微调数据大小和其他缩放因素之间的幂次乘法联合缩放定律；2）LLM微调更受益于LLM模型缩放而不是预训练数据缩放，PET参数缩放通常无效；3）最佳微调方法高度依赖于任务和微调数据。我们希望我们的发现能够启发人们理解、选择和开发LLM微调方法。
图表
解决问题

本论文旨在研究不同缩放因素（包括LLM模型大小、预训练数据大小、新的微调参数大小和微调数据大小）对微调性能的影响，以填补当前对微调方法的归纳偏差的了解不足的空白。
关键思路

本论文通过研究微调数据大小和其他缩放因素之间的乘法联合缩放规律，探索了完整模型微调和参数高效微调的缩放行为，并发现LLM模型缩放比预训练数据缩放更有益，并且PET参数缩放通常无效。
其它亮点

本论文使用了两组预先训练的双语LLM（从1B到16B），并在双语机器翻译和多语言摘要基准测试上进行了实验。实验结果表明，最佳的微调方法高度依赖于任务和微调数据。本论文的研究结果对于理解、选择和开发LLM微调方法具有重要意义。
相关研究

在这个领域中，最近有一些相关的研究，例如《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》和《How Much Knowledge Can You Pack Into the Parameters of a Language Model?》。

When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method

评论