LoFiT: Localized Fine-tuning on LLM Representations

2024年06月03日
  • 简介
    最近的可解释性研究表明,大型语言模型(LLM)可以以一种无需学习的方式适应新任务:可以对LLM表示进行干预,以引发所需的行为以实现对齐。例如,据报道,向某些注意力头的输出添加某些偏置向量可以提高模型的真实性。在这项工作中,我们展示了局部微调作为这种表示干预方法的有效替代方案。我们介绍了一个名为LLM表示的局部微调(LoFiT)的框架,该框架识别了最重要的一些注意力头的子集,这些头对于学习特定任务非常重要,然后训练偏移向量以添加到模型在这些选择的头部的隐藏表示中。LoFiT仅局限于稀疏的一小部分注意力头(3%),并从有限的训练数据中学习偏移向量,与表示干预使用的设置相当。对于真实性和推理任务,我们发现,与推理时间干预等表示干预方法相比,LoFiT的干预向量对LLM适应更为有效。我们还发现,局部化步骤非常重要:选择特定于任务的一组注意力头可以导致比对选择不同任务的头进行干预更高的性能。最后,在我们研究的任务中,LoFiT实现了与其他参数高效微调方法(如LoRA)相当的性能,尽管修改的参数比这些方法少20倍至200倍。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在探讨如何在不使用学习的情况下,通过干预LLM表示来适应新任务。同时,论文还试图证明局部微调是一种有效的干预方法。
  • 关键思路
    论文提出了一种名为LoFiT的框架,该框架通过选择最重要的注意力头的子集来实现任务特定的局部微调,然后训练偏移向量以添加到模型的隐藏表示中。LoFiT只局部微调了稀疏集合(仅3%)的头部,从有限的训练数据中学习偏移向量,相比表示干预方法具有更好的适应性。
  • 其它亮点
    论文发现,对于真实性和推理任务,LoFiT的干预向量比表示干预方法(如Inference-time Intervention)更有效。此外,选择任务特定的注意力头可以比干预选择其他任务的注意力头获得更高的性能。对于研究的任务,LoFiT的性能与其他参数高效的微调方法(如LoRA)相当,尽管修改的参数比这些方法少20倍到200倍。论文使用了公共数据集,但没有开源代码。
  • 相关研究
    在这个领域中,还有其他相关的研究,如《Inference in Probabilistic Graphical Models by Graph Neural Networks》和《Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问