BoRA: Bayesian Hierarchical Low-Rank Adaption for Multi-task Large Language Models

2024年07月08日
  • 简介
    本文介绍了一种新的方法——贝叶斯分层低秩适应(BoRA),用于微调多任务大型语言模型(LLMs)。目前的微调方法,如低秩适应(LoRA),在减少训练参数和内存使用方面表现出色,但在应用于多个相似任务时存在局限性。从业者通常必须在为每个任务训练单独的模型或为所有任务训练单个模型之间做出选择,这两种方法都存在专业化和数据利用方面的权衡。BoRA通过利用贝叶斯分层模型来解决这些权衡问题,该模型允许任务通过全局分层先验共享信息。这使得数据有限的任务可以从相关任务中获得总体结构的好处,同时允许数据更多的任务专门化。我们的实验结果表明,BoRA优于单独和统一模型方法,在各个任务中实现更低的困惑度和更好的泛化能力。该方法为多任务LLM微调提供了可扩展和高效的解决方案,对各种应用具有重要的实际意义。
  • 图表
  • 解决问题
    本论文旨在解决多任务大语言模型(LLM)微调中的参数和内存使用问题,以及任务专业化和数据利用之间的权衡。
  • 关键思路
    论文提出了一种名为BoRA的贝叶斯分层低秩调整方法,利用贝叶斯分层模型,通过全局分层先验实现任务间的信息共享,使得具有有限数据的任务可以从相关任务的总体结构中受益,同时允许具有更多数据的任务专业化。
  • 其它亮点
    实验结果表明,BoRA优于单独和统一模型方法,在多个任务上实现了更低的困惑度和更好的泛化性能。这种方法为多任务LLM微调提供了一种可扩展和高效的解决方案,具有重要的实际应用意义。
  • 相关研究
    近期的相关研究包括Low-Rank Adaption (LoRA)等方法,但这些方法在应用于多个类似任务时存在局限性。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论