- 简介本文介绍了一种名为Q-Galore的新方法,该方法通过结合量化和低秩投影来大幅度减少内存使用,超越了GaLore的优点。该方法基于两个关键观察结果:(i)梯度子空间具有多种特性,有些层在训练早期就会收敛,而其他层则经常发生变化;(ii)投影矩阵对低位量化具有高度的弹性。利用这些见解,Q-GaLore根据其收敛统计数据自适应地更新梯度子空间,实现了可比较的性能,同时显著减少了SVD操作的数量。我们将投影矩阵维护在INT4格式中,将权重维护在INT8格式中,并采用随机舍入来捕获累积梯度信息。这种方法只使用低精度权重就能实现高精度的训练轨迹。我们证明,Q-GaLore在内存效率方面具有极高的竞争力和优异的性能。在预训练方面,Q-GaLore能够在单个NVIDIA RTX 4060 Ti上使用16 GB内存从头开始训练LLaMA-7B模型。在微调方面,它将内存消耗降低了高达50%,而且与QLoRA在相同的内存成本下始终表现更好,超越了LoRA和GaLore。
- 图表
- 解决问题本文旨在解决训练大型语言模型(LLMs)时内存占用过高的问题,提出了一种新的方法Q-GaLore,通过量化和低秩投影相结合,实现了比GaLore更好的内存使用效率。
- 关键思路Q-GaLore方法通过两个关键观察来实现内存占用的降低:梯度子空间具有多样的特性,某些层在训练早期就收敛了,而其他层则经常发生变化;投影矩阵对低位量化高度弹性。Q-GaLore根据梯度子空间的收敛统计信息自适应地更新梯度子空间,同时将投影矩阵维护在INT4格式中,权重维护在INT8格式中,通过随机舍入捕获积累的梯度信息。
- 其它亮点Q-GaLore方法在预训练中实现了用16GB内存的单个NVIDIA RTX 4060 Ti从头开始训练LLaMA-7B模型,同时在精度上保持了高精度训练轨迹。在微调中,相比LoRA和GaLore,Q-GaLore将内存消耗降低了50%,同时在相同的内存成本下始终优于QLoRA。
- 与本文相关的研究包括GaLore和LoRA方法。
沙发等你来抢
去评论
评论
沙发等你来抢