- 简介在自然语言处理中,通常的做法是在通用领域上预先训练一个模型,然后对下游任务进行微调。然而,对于大型语言模型来说,整个模型的微调可能会耗费大量的计算资源,导致能源消耗非常高。因此,最近提出了几种参数高效微调(PEFT)的方法。其中最流行的方法之一是低秩适应(LoRA),其关键洞见是将预训练模型的更新权重分解成两个低秩矩阵。然而,现有的方法要么在所有不同的权重矩阵上使用相同的秩值,要么不使用任何量化技术,而量化技术已被证明是模型能源消耗的最重要因素之一。在这项工作中,我们提出了贝叶斯-LoRA(B-LoRA),它从贝叶斯的角度来处理矩阵分解和量化,通过在学习到的低秩矩阵的量化级别和秩值上采用先验分布。因此,B-LoRA能够在特定的下游任务上微调预训练模型,找到每个低秩矩阵的最优秩值和量化级别。我们验证了所提出的模型在GLUE基准测试上微调了预训练的DeBERTaV3。此外,我们将其与相关的基线进行比较,并展示了定性和定量结果,展示了所提出的方法如何学习最优秩量化矩阵。B-LoRA的表现与基线相当或更好,同时将总位运算数量相对于基线减少了约70%。
- 图表
- 解决问题降低大语言模型的微调成本和能源消耗问题。
- 关键思路提出一种贝叶斯低秩适应(B-LoRA)方法,将矩阵分解和量化从贝叶斯角度进行,为每个低秩矩阵找到最佳秩和量化级别。
- 其它亮点论文使用GLUE基准测试验证了该方法,并将其与相关基线进行了比较。实验结果表明,B-LoRA能够学习最优秩量化矩阵,同时将总位操作量与基线相比减少了约70%。
- 最近的相关研究包括使用不同的低秩适应方法来减少大型语言模型的微调成本和能源消耗,如LoRA、ALBERT等。
沙发等你来抢
去评论
评论
沙发等你来抢