A Study of Optimizations for Fine-tuning Large Language Models

简介

对于想要将大型语言模型适应于特定应用的用户来说，微调是一个受欢迎的选择。然而，微调这些模型是一项艰巨的任务，因为用户必须考虑多种因素，例如资源预算、运行时间、模型大小和上下文长度等。一个具体的挑战是微调需要大量的内存，这就对所需的硬件内存和可以处理的训练数据上下文长度施加了限制。在这项工作中，我们分享了一项关于不同微调场景下各种微调优化的详细研究。特别是，我们评估了梯度检查点、低秩适应、DeepSpeed的零冗余优化器和FlashAttention。我们关注内存和运行时间，研究了不同优化组合对GPU内存使用和执行运行时间在微调阶段的影响。我们提供了关于平衡各种模型大小的内存和运行时间的最佳默认优化的建议。我们分享了微调数百亿参数的非常大的模型并在微调期间启用大的上下文长度的有效策略。此外，我们提出了在GPU资源限制下微调的适当优化混合。
图表
解决问题

本文旨在研究fine-tuning大型语言模型的优化方法，以平衡内存和运行时间的需求，并提出适用于GPU资源限制的fine-tuning优化组合。
关键思路

本文提出了Gradient Checkpointing、Low-Rank Adaptation、DeepSpeed's Zero Redundancy Optimizer和FlashAttention等fine-tuning优化方法，并通过实验比较它们在GPU内存使用和运行时间方面的表现，推荐了适用于各种模型大小的最佳默认优化组合。
其它亮点

本文提供了fine-tuning大型语言模型的一系列优化方法，并对它们进行了实验比较，推荐了最佳默认优化组合。此外，本文还分享了fine-tuning非常大的模型和启用大上下文长度的有效策略，并针对GPU资源限制提出了适当的优化组合。目前，本文的代码已经开源。
相关研究

在这个领域中，最近还有一些相关的研究。例如，2021年的论文《Scaling Laws for Autoregressive Generative Modeling》提出了一种基于缩放律的自回归生成建模方法，可以有效地训练大型模型。另外，2020年的论文《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》介绍了一种使用模型并行训练多十亿参数语言模型的方法。

许愿开讲

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论