Knowledge Composition using Task Vectors with Learned Anisotropic Scaling

简介

预训练模型产生强大的通用表示，可以通过微调进行适应。相对于预训练模型的学习权重差异，即任务向量，表征了微调的方向和步幅。任务向量的重要性在于，可以对它们进行简单的算术运算，以组合来自不同领域的多样化表示。本文基于任务向量的这些特性，旨在回答以下问题：（1）任务向量的组成部分，特别是参数块，是否表现出类似的特征？（2）这些块如何用于增强知识组合和转移？为此，我们引入了aTLAS算法，它线性组合了具有不同学习系数的参数块，从而在任务向量级别上产生各向异性缩放。我们展示了这种线性组合明确利用了预训练模型的低内在维度，只有少量系数是可学习的参数。此外，参数块的组合利用了已经学习的表示，从而减少了对大量数据的依赖。我们展示了我们的方法在任务算术、少样本识别和测试时适应，具有监督或无监督的目标时的有效性。特别地，我们展示了：（1）学习的各向异性缩放使任务向量更具解缠性，组合时干扰更少；（2）任务向量组合在缺乏或没有标记数据时表现出色，且不易受到领域转移的影响，因此具有更好的泛化性能；（3）在训练之前混合不同任务向量中最具信息的参数块，可以减少内存占用并提高知识转移的灵活性。此外，我们展示了aTLAS作为PEFT方法的潜力，特别是在数据较少时，并展示了其可扩展性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在回答两个问题：（1）任务向量的组成部分，尤其是参数块是否具有相似的特征；（2）如何利用这些参数块来增强知识组合和转移。
关键思路

本文提出了一种线性组合参数块的算法aTLAS，利用少量可学习参数来显式利用预训练模型的低内在维度，并减少对大量数据的依赖。aTLAS在任务算术、少样本识别和测试时适应等方面表现出色。
其它亮点

本文的亮点在于提出了一种新的算法aTLAS，以显式利用预训练模型的低内在维度；实验结果表明，该算法在任务算术、少样本识别和测试时适应等方面表现出色，并且能够减少对大量数据的依赖。
相关研究

最近的相关研究包括：Meta-Learning with Differentiable Convex Optimization、Learning to Learn without Forgetting、Unsupervised Meta-Learning for Few-Shot Image Classification等。

Knowledge Composition using Task Vectors with Learned Anisotropic Scaling

提问交流

提问交流