【论文速读】是OpenBMB发起的大模型论文学习栏目,用 高效的思维导图 形式,带领大家在 10min 内快速掌握一篇 前沿经典 论文。我们邀请来自清华大学自然语言处理实验室以及各大高校、科研机构的 学术达人 作为主讲人分享 大模型领域 的论文。
 

 

ACL 和 NAACL 均为自然语言处理顶级会议NLP 领域有良好的声誉和影响力。本期论文速读带大了解通过知识继承与复用来加速预训练语言模型训练的研究——Knowledge Inheritance for Pre-trained Language Models (NAACL 2022) / bert2BERT: Towards Reusable Pretrained Language Models (ACL 2022) 由两篇论文的共同作者之一、清华大学计算机系三年级博士生秦禹嘉进行领读讲解。

 


   

 01  作者信息 

【1】Yujia QinYankai LinJing YiJiajie ZhangXu Han, Zhengyan Zhang, Yusheng SuZhiyuan LiuPeng LiMaosong Sun, Jie Zhou
【2】Cheng Chen, Yichun Yin, Lifeng Shang, Xin Jiang, Yujia Qin, Fengyu Wang, Zhi Wang, Xiao Chen, Zhiyuan Liu, and Qun Liu

 02  论文简介 

关键词   KeyWords
Large-scale PLMs
Knowledge Inheritance
Model Expansion
 
摘要概览   Abstract 
  • 让大模型复用(继承)已有小模型中的隐式知识,从而加速大模型的训练
  • 提出于“知识蒸馏”和“参数复用”知识继承框架,充分利用现有小模型消耗的算力
  • 知识继承可以很好地加速模型收敛、提高模型性能

     

 

 

   

 03  研究设计 

研究思路

  • 简单地扩大模型容量、数据大小和训练时间可以显著提升模型性能,然而更多的模型参数也意味着更昂贵的计算资源、训练成本。
  • 现有的 PLM 通常是从零开始单独训练,而忽略了许多已训练的可用模型。
  • 考虑到人类可以利用前人总结的知识来学习新任务;同样我们可以让大模型复用(继承)已有小模型中的隐式知识,从而加速大模型的训练。
研究方法
提出知识继承框架,充分利用现有小模型消耗的算力

  • “知识蒸馏”
    大模型预训练初期,让现有小模型作为大模型的“老师”,将小模型的隐式知识“反向蒸馏”给大模型从而复用现有小模型的能力,减少大模型预训练计算消耗

 

  • “参数复用”

 


 04  实验及结论 

知识蒸馏

  • 在知识继承框架下大模型预训练收敛速度提升37.5%

  • 大模型在下游任务上显著超越传统方法

参数复用
  • 纵向模型增长:参考 StackingBERT,并引入阶段式训练
  • 实验结果:


 05  方法对比 

基于知识蒸馏

  • 更加灵活,对模型架构要求较低

  • 支持多对一知识继承,不需要得到小模型参数

  • 性能提升不及参数复用

基于参数复用

  • 比基于知识蒸馏的方法效果更好

  • 约束较高,需要得到模型参数,应用场景受限

 

 ▾ 传送门   论文链接 
🔗 https://aclanthology.org/2022.naacl-main.288/
🔗 https://aclanthology.org/2022.acl-long.151/

 ▾   公众号回复 「论文速读」
即可获得高清完整版思维导图 

 

我们为读者准备了一份高清思维导图,包括了论文中的重点亮点以及直观的示意图。点击下方名片 关注 OpenBMB ,后台发送“论文速读” ,即可领取论文学习高清思维导图和 FreeMind !

思维导图,关注回复“论文速读”获取高清完整版
 
              

本期论文速读视频版已发布于 OpenBMB的 B站账号 (视频讲解比文字阅读更加详细易懂哦),欢迎大家观看后 一键三连 


 
以上是本期论文速读的全部内容,后续 OpenBMB 会围绕大模型介绍更多前沿论文,欢迎大家持续关注!👏

官方网站
https://www.openbmb.org
技术文章
CPM-Ant 训练完成 BMInf 适配GLM-130B
高效训练工具 BMTrain BMTrain 技术原理
CPM-Live 邀请函 CPM-Live 训练启动
OpenBMB 社区介绍 | 大模型课程
大模型榜单 BMList
长期开放招聘含实习
开发岗  |  研发岗  |  运营岗
交流QQ群
735930538
欢迎转载
商务合作请联系
openbmb@gmail.com
👏期待您的关注与加入👏

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除