- 简介将预训练的基础模型适应于各种下游任务在人工智能领域中非常普遍。由于任务数量众多且成本高昂,调整所有参数变得不可行。为了缓解这个问题,已经开发了一些微调技术,以更节省资源的方式更新预训练模型的权重,例如通过低秩调整。然而,几乎所有这些方法都专注于线性权重,忽略了高维度(如4D)参数空间的复杂性。或者,一些方法可以通过将原始空间中的变化压缩为二维,然后使用低秩矩阵分解来适应高维度参数空间。然而,这些方法会破坏涉及高维度空间的结构完整性。为了解决不同基础模型之间维度空间多样性的问题,并提供更精确的这些空间内部的变化表示,本文介绍了一个通用的参数高效微调框架FLoRA,专为各种维度参数空间设计。具体而言,利用Tucker分解,FLoRA断言每个维度参数空间中的变化都基于一个低秩核空间,该空间与原始空间保持一致的拓扑结构。然后,它通过这个核空间以及相应的权重来模拟变化,以重构原始空间中的变化。FLoRA有效地保留了原始N维参数空间的变化的结构完整性,同时通过低秩张量分解进行了分解。对计算机视觉、自然语言处理和多模态任务的广泛实验验证了FLoRA的有效性。代码可在https://github.com/SJTU-DeepVisionLab/FLoRA上获得。
- 图表
- 解决问题论文旨在解决使用预训练模型进行下游任务时,参数调整成本高的问题。当前的微调技术主要针对线性权重,忽略了高维参数空间的复杂性。这篇论文提出了一种通用的参数高效微调框架,FLoRA,旨在处理不同维度参数空间的多样性并提供更精确的表示。
- 关键思路FLoRA利用Tucker分解,断言每个维度参数空间中的变化基于一个低秩核空间,该空间保持与原始空间的一致拓扑结构。然后,它通过该核空间以及相应的权重来模拟变化,以重构原始空间中的变化。FLoRA通过低秩张量分解有效地保留了原始N维参数空间的结构完整性,同时对其进行了分解。
- 其它亮点论文在计算机视觉、自然语言处理和多模态任务上进行了广泛的实验验证,证明了FLoRA的有效性。代码可在GitHub上找到。值得关注的是,FLoRA能够处理不同维度参数空间的多样性,并提供更精确的表示。
- 最近的相关研究包括使用低秩分解进行微调的方法,但这些方法大多数专注于线性权重,并忽略了高维参数空间的复杂性。
沙发等你来抢
去评论
评论
沙发等你来抢