Weight subcloning: direct initialization of transformers using larger pretrained ones

2023年12月14日
  • 简介
    从头开始为目标任务训练大型Transformer模型需要大量的数据,并且需要大量计算。传统的迁移学习通过使用与所需大小和规格相同的预训练模型的权重来初始化模型,以增加收敛速度和训练速度来克服这一挑战。然而,如果没有所需大小的预训练模型怎么办?在本文中,我们介绍了一种简单而有效的技术,将预训练模型的知识转移给较小的变体。我们的方法称为权重子克隆,通过从较大的预训练模型初始化其权重来加速缩小的Transformer的训练。 权重子克隆涉及对预训练模型进行操作,以获得相应的初始化缩小模型。它包括两个关键步骤:首先,我们引入神经元重要性排名来减少预训练模型中每层的嵌入维度。然后,我们从Transformer模型中删除块,以匹配缩小网络中的层数。结果是一个准备接受训练的网络,与随机初始化相比,它在训练速度方面获得了显着的改进。例如,我们在图像分类的视觉Transformer和用于下一个标记预测的语言模型中实现了4倍的训练加速。
  • 图表
  • 解决问题
    如何在没有预训练模型的情况下,加速训练较小的Transformer模型?
  • 关键思路
    通过权重子克隆技术,将大型预训练模型的知识转移给较小的模型,以加速训练。
  • 其它亮点
    论文提出的权重子克隆技术可使得较小的Transformer模型在训练时获得4倍的加速,实验表明其在图像分类和语言模型等任务上都有显著的提升。论文使用了神经元重要性排名和去除Transformer模型中的块来实现权重子克隆,论文还提供了开源代码。
  • 相关研究
    最近的相关研究包括使用不同的预训练模型进行迁移学习,或者使用不同的初始化策略来加速训练。相关论文包括《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》和《Fixup Initialization: Residual Learning Without Normalization》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论