RE-Adapt: Reverse Engineered Adaptation of Large Language Models

2024年05月23日
  • 简介
    我们介绍了一种名为RE-Adapt的方法,可以在不降低任何预先存在的指令调整的情况下,对新领域进行大语言模型的微调。我们反向工程了一个适配器,它可以隔离指令调整模型在其对应的预训练基模型之外所学习的内容。重要的是,这不需要任何额外的数据或训练。然后,我们可以对新领域的基模型进行微调,并使用反向工程的适配器重新适应指令跟随。在多个流行的LLM和数据集上,RE-Adapt和我们的低秩变体LoRE-Adapt都优于其他微调方法,即使在与检索增强生成结合使用模型的情况下也是如此。
  • 图表
  • 解决问题
    论文旨在解决如何在不损害预训练模型的情况下,将大型语言模型fine-tuning到新的领域,并重新适应到指令遵循任务中。
  • 关键思路
    通过逆向工程出adapter,隔离出指令调整模型在预训练基模型之外学到的内容,从而实现对基模型的fine-tuning,并将其重新适应到指令遵循任务中。
  • 其它亮点
    论文提出的RE-Adapt和低秩变量LoRE-Adapt方法在多个流行的大型语言模型和数据集上均优于其他fine-tuning方法,即使在与检索增强生成结合使用时也是如此。论文没有使用额外的数据或训练来实现逆向工程出adapter,这是一个值得关注的亮点。
  • 相关研究
    在最近的相关研究中,也有一些关于如何在不影响预训练模型的情况下进行fine-tuning的研究,如AdapterHub和AdapterFusion等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论