- 简介预训练模型产生强大的通用表示,可以通过微调进行适应。相对于预训练模型的学习权重差异,即任务向量,表征了微调的方向和步幅。任务向量的重要性在于,可以对它们进行简单的算术运算,以组合来自不同领域的多样化表示。本文基于任务向量的这些特性,旨在回答以下问题:(1)任务向量的组成部分,特别是参数块,是否表现出类似的特征?(2)这些块如何用于增强知识组合和转移?为此,我们引入了aTLAS算法,它线性组合了具有不同学习系数的参数块,从而在任务向量级别上产生各向异性缩放。我们展示了这种线性组合明确利用了预训练模型的低内在维度,只有少量系数是可学习的参数。此外,参数块的组合利用了已经学习的表示,从而减少了对大量数据的依赖。我们展示了我们的方法在任务算术、少样本识别和测试时适应,具有监督或无监督的目标时的有效性。特别地,我们展示了:(1)学习的各向异性缩放使任务向量更具解缠性,组合时干扰更少;(2)任务向量组合在缺乏或没有标记数据时表现出色,且不易受到领域转移的影响,因此具有更好的泛化性能;(3)在训练之前混合不同任务向量中最具信息的参数块,可以减少内存占用并提高知识转移的灵活性。此外,我们展示了aTLAS作为PEFT方法的潜力,特别是在数据较少时,并展示了其可扩展性。
-
- 图表
- 解决问题本文旨在回答两个问题:(1)任务向量的组成部分,尤其是参数块是否具有相似的特征;(2)如何利用这些参数块来增强知识组合和转移。
- 关键思路本文提出了一种线性组合参数块的算法aTLAS,利用少量可学习参数来显式利用预训练模型的低内在维度,并减少对大量数据的依赖。aTLAS在任务算术、少样本识别和测试时适应等方面表现出色。
- 其它亮点本文的亮点在于提出了一种新的算法aTLAS,以显式利用预训练模型的低内在维度;实验结果表明,该算法在任务算术、少样本识别和测试时适应等方面表现出色,并且能够减少对大量数据的依赖。
- 最近的相关研究包括:Meta-Learning with Differentiable Convex Optimization、Learning to Learn without Forgetting、Unsupervised Meta-Learning for Few-Shot Image Classification等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流