Transferring Knowledge from Large Foundation Models to Small Downstream Models

2024年06月11日
  • 简介
    我们如何将来自越来越大的基础模型的相关知识转移到可以以更低成本运行的小型、任务特定的下游模型中?使用预训练权重作为初始化的标准迁移学习只能转移有限的信息,并使我们经常面对庞大的预训练架构。这个过程还排除了组合多个学习互补信息的预训练模型的可能性。为了解决这些缺点,我们引入了自适应特征转移(AFT)。AFT不是转移权重,而是纯粹基于特征进行操作,从而将预训练模型的选择与较小的下游模型分离开来。AFT不是不加选择地压缩所有预训练特征,而是使用简单的正则化,自适应地转移对执行下游任务最有用的预训练特征,增加最小的开销。在多个视觉、语言和多模态数据集上,AFT相比具有类似计算成本的替代方法,实现了明显更好的下游性能。此外,AFT可靠地将预训练模型的改进转化为下游性能的改进,即使下游模型小了50倍以上,也能有效地转移多个预训练模型学习的互补信息。
  • 图表
  • 解决问题
    如何将大型预训练模型中的相关知识转移到小型特定任务的下游模型中,以降低计算成本?
  • 关键思路
    Adaptive Feature Transfer(AFT)算法,通过对特征进行自适应转移,而非权重,将预训练模型与下游模型解耦,从而更好地适应不同的任务。AFT选择转移对下游任务最有用的特征,使用简单的正则化方法来实现。
  • 其它亮点
    AFT算法在多个视觉、语言和多模态数据集上实现了显著的下游性能提升,即使下游模型比预训练模型小50倍以上,也能有效地转移多个预训练模型学习到的互补信息。
  • 相关研究
    与AFT相关的研究包括:Moco, SimCLR, BYOL等自监督学习算法;以及其他的迁移学习和预训练模型压缩算法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论