On the Surprising Efficacy of Distillation as an Alternative to Pre-Training Small Models

2024年04月04日
  • 简介
    在本文中,我们提出小模型可能不需要承担预训练的成本就可以获得其好处。相反,它们可以在现代巨大模型取得惊人成果的基础上获益。我们观察到,当小模型在来自预训练教师模型的任务上进行蒸馏时,它可以达到或超过如果它在该任务上进行预训练然后微调所能达到的性能。为了方便地利用这种现象,我们建立了一个联系,将知识蒸馏简化为现代对比学习,打开了两个门:(1)非常不同的模型架构配对可以用于蒸馏,(2)大多数基于噪声对比估计理论的对比学习算法都可以轻松应用和使用。我们使用来自开源模型中心的预训练教师模型、变压器和卷积模型组合以及一种新的蒸馏算法来演示这种范式,该算法将 Wang&Isola(2020)提出的对比学习的对齐/均匀性视角转化为蒸馏目标。我们选择这种对比学习的风格是因为它的计算成本低,这是本工作的一个总体主题。我们还观察到,如果任务受到数据限制,则通常不会出现这种现象。但是,可以通过利用另一种基于规模的发展来缓解这种情况:大型预训练生成模型用于数据集增强。同样,我们使用开源模型,我们的基本提示足以提高小模型的性能。因此,我们强调了一种训练小模型的方法,其速度比标准预训练范式快高达94%,而不会牺牲性能。对于因规模限制而被阻止充分利用现代基础数据集的从业者,我们相信我们的工作将保持这扇门敞开。
  • 图表
  • 解决问题
    小模型在不进行预训练的情况下如何获得与预训练模型相似的性能?
  • 关键思路
    通过知识蒸馏和对比学习相结合的方式,使小模型在任务上达到或超过预训练模型的性能。
  • 其它亮点
    该方法可以大幅降低训练时间,同时不损失性能;使用的对比学习算法计算成本低;通过使用大型生成模型进行数据增强,可以缓解数据不足的问题。
  • 相关研究
    与本文相关的研究有预训练模型、知识蒸馏和对比学习等领域的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论