The Unreasonable Ineffectiveness of the Deeper Layers

Andrey Gromov ,
Kushal Tirumala ,
Hassan Shapourian ,
Paolo Glorioso ,
Daniel A. Roberts
1974
热度
NLP
ML
stat.ML
2024年03月26日
  • 简介
    我们对流行的开放权重预训练LLMs家族进行了实证研究,发现在删除大约一半的层之前,不同的问答基准测试中性能只有轻微的下降。为了修剪这些模型,我们通过考虑层之间的相似性来确定最佳的层块进行修剪;然后,为了“修复”损坏,我们进行了少量的微调。具体来说,我们使用了参数高效微调(PEFT)方法,特别是量化和低秩适配器(QLoRA),使得我们的每个实验都可以在单个A100 GPU上进行。从实际的角度来看,这些结果表明,层修剪方法可以补充其他PEFT策略,进一步减少微调的计算资源,一方面可以提高推理的内存和延迟。从科学的角度来看,这些LLMs对层的删除的鲁棒性意味着当前的预训练方法要么没有充分利用网络深层参数,要么浅层在存储知识方面发挥了关键作用。
  • 图表
  • 解决问题
    本论文旨在研究一种简单的层剪枝策略,以减少预训练语言模型的计算资源和提高推理的内存和延迟。作者试图验证当前预训练方法是否充分利用了深层网络的参数,或者浅层网络是否在存储知识方面起着关键作用。
  • 关键思路
    本论文提出了一种层剪枝策略,通过考虑层之间的相似性来确定最佳剪枝层,然后使用参数高效的微调方法来修复剪枝后的模型,以获得最小的性能损失。
  • 其它亮点
    本论文的实验结果表明,在不同的问答基准测试中,预训练语言模型的性能只有剪枝了大约一半的层数后才会出现明显的下降。作者使用了参数高效的微调方法,例如量化和低秩适配器,使得所有实验都可以在单个A100 GPU上完成。此外,本论文的研究结果表明,层剪枝方法可以与其他参数高效微调策略相辅相成,进一步减少微调的计算资源,并提高推理的内存和延迟。
  • 相关研究
    在这个领域中,最近的相关研究包括:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《RoBERTa: A Robustly Optimized BERT Pretraining Approach》、《DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论