LaVIN-lite｜训练自己的多模态大语言模型

LaVIN-lite：在一个具有竞争力性能的GPU上训练您自己的多模态大语言模型。

LaVIN-lite的性能仍然远远超过参数高效方法LLA-Adapter，但与LaVIN的16位训练相比，性能略有下降。我们推测原因可能是在4位培训期间需要插入更多的适配器进行适应。我们欢迎每个人根据这个基线进一步探索和比较。

LaVIN代码：https://github.com/luogen1996/LaVIN
LaVIN论文：https://arxiv.org/pdf/2305.15023.pdf

经过一些技术优化后，LaVIN只需要额外的3-5M参数和最低的8G GPU内存成本，即可将LLaMA扩展到多模态任务，完成图像文本问题回答、对话和纯文本任务等任务。

技术细节摘要

新提出的参数高效调优方法（请参阅LaVIN的论文）：降低大量GPU内存成本
4位量化调优：减少约3~8GB的内存使用量
梯度累积+梯度检查点：减少约一半的GPU内存使用量
分页优化器
大型多模态法学硕士的高效参数调整。

我们在LaVIN中提出了一种新的参数高效调谐方法。当整个LLM参数被冻结时，可以实现：

大型多式联运LLM的高效参数调整（只需额外花费3-6M参数）
高效的端到端培训（将培训时间减少2/3）
在单模态（仅文本输入）和多模态任务（文本和图像输入）之间自动切换。
通过这种方式，我们在ScienceQA上实现了接近最先进的性能，同时适应了文本模式和图像文本模式。

这种参数高效的训练方法实际上节省了大部分GPU内存。与LLaVA相比，在完全微调大型模型的情况下，LLaVA-13B将耗尽A100（80G）上的GPU内存。相比之下，LaVIN-13B只需要大约55G的GPU内存开销。考虑到LLaVA也使用梯度检查点，LaVIN-13B至少节省了一半的GPU内存开销（估计），训练速度会更快。与现有的参数效率方法相比，我们的解决方案在性能和适应性方面具有显著优势，有关具体情况，请参阅本文，此处没有详细说明。然而，由于深度速度似乎不支持参数高效的训练方法，实际的GPU内存开销与完全优化的LLAVA相似，甚至略多。

4位量化训练

4位量化训练主要指qlora。简而言之，qlora将LLM的重量量化为4位进行存储，同时在训练过程中将它们量化为16位，以确保训练精度。这种方法显著减少了训练期间的GPU内存开销（训练速度应该不会有太大变化）。这种方法非常适合与参数效率高的方法相结合。然而，原始论文是为单模态LLM设计的，代码已经包装在HuggingFace的库中。因此，我们从HuggingFace的库中提取了核心代码，并将其迁移到LaVIN的代码中。主要原理是将LLM中的所有线性层替换为4位量化层。有兴趣的人可以参考我们在quantization.py和mm_adaptation.py中的实现，这大约是十几行代码。

经过4位量化训练后，当批处理大小（bs）大于1时，GPU内存的减少不是很明显。LaVIN-7B减少了大约4-6G，但这种固定内存减少实际上非常有价值。此时，我们很好奇qlora是如何将模型安装在单个GPU上的，此时LaVIN-7B的GPU内存开销仍然在36+G左右。在检查他们的代码后，我们找到了以下关键设置。

梯度累积+梯度检查点

这里的关键是用时间换取空间。使用1 +梯度累积和梯度检查点的批处理大小（bs）可以大大减少GPU内存开销。这也是qlora训练的核心元素（实际上，仅仅通过量化训练实现极端的内存压缩是相当具有挑战性的）。我们的实验结果大致如下：LaVIN-7B，当从bs=4更改为批处理大小（bs）=1 +梯度累积时，将GPU内存减少到25G左右。应用梯度检查点后，内存减少到9-10G左右。此时，内存从数百GB压缩到10G左右，这是相当可观的。然而，这一步骤的成本是训练速度的显著放缓，这实际上类似于qlora的原始论文中报告的速度下降。与根本无法进行培训的原始情况相比，这些额外的时间成本可以忽略不计。

分页优化器

Paged Optimizer的目的是在GPU内存即将耗尽时将优化器中的一部分权重迁移到CPU，从而确保训练的正常进度。在实际使用中，没有太大的明显区别。我们怀疑，当GPU内存开销非常接近GPU内存容量时，此设置可以提供快速修复。在正常情况下，这似乎没有多大帮助。有兴趣的人可以尝试8位优化器，这可能会带来更明显的好处。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

LaVIN-lite｜训练自己的多模态大语言模型

评论