Gaussian Stochastic Weight Averaging for Bayesian Low-Rank Adaptation of Large Language Models

简介

本文提出了一种简单的方法，将低秩适应（LoRA）与高斯随机权重平均（SWAG）相结合，以促进LLM的近似贝叶斯推断，从而解决Fine-tuned LLMs在小数据集上过度自信和校准不良的问题。通过在几个自然语言处理基准测试中进行广泛测试，我们证明了我们的方法可以提高模型的泛化能力和校准性，并且在面对分布转移时表现出更大的鲁棒性，这可以从其在超出分布任务上的表现中得到体现。
图表
解决问题

论文旨在解决Fine-tuned Large Language Models (LLMs) 在小数据集上表现出的过度自信和差的校准问题。同时，论文也试图提高模型的泛化性和鲁棒性。
关键思路

论文提出了一种结合了Low-Rank Adaptation (LoRA)和Gaussian Stochastic Weight Averaging (SWAG)的方法，以实现LLMs的近似贝叶斯推断。这种方法简单高效，能够提高模型的泛化性和校准性。
其它亮点

论文通过在多个NLP基准测试中进行广泛测试，展示了该方法的有效性。实验结果表明，该方法能够提高模型的泛化性和校准性，并且在面对分布偏移时表现更加鲁棒。此外，论文还提供了开源代码。
相关研究

近期的相关研究包括：《Understanding the Limits of Transfer Learning with Transformer Language Models》、《On Calibration of Modern Neural Networks》等。