Gaussian Stochastic Weight Averaging for Bayesian Low-Rank Adaptation of Large Language Models

2024年05月06日
  • 简介
    本文提出了一种简单的方法,将低秩适应(LoRA)与高斯随机权重平均(SWAG)相结合,以促进LLM的近似贝叶斯推断,从而解决Fine-tuned LLMs在小数据集上过度自信和校准不良的问题。通过在几个自然语言处理基准测试中进行广泛测试,我们证明了我们的方法可以提高模型的泛化能力和校准性,并且在面对分布转移时表现出更大的鲁棒性,这可以从其在超出分布任务上的表现中得到体现。
  • 图表
  • 解决问题
    论文旨在解决Fine-tuned Large Language Models (LLMs) 在小数据集上表现出的过度自信和差的校准问题。同时,论文也试图提高模型的泛化性和鲁棒性。
  • 关键思路
    论文提出了一种结合了Low-Rank Adaptation (LoRA)和Gaussian Stochastic Weight Averaging (SWAG)的方法,以实现LLMs的近似贝叶斯推断。这种方法简单高效,能够提高模型的泛化性和校准性。
  • 其它亮点
    论文通过在多个NLP基准测试中进行广泛测试,展示了该方法的有效性。实验结果表明,该方法能够提高模型的泛化性和校准性,并且在面对分布偏移时表现更加鲁棒。此外,论文还提供了开源代码。
  • 相关研究
    近期的相关研究包括:《Understanding the Limits of Transfer Learning with Transformer Language Models》、《On Calibration of Modern Neural Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论