作者:Yichun Yin, Cheng Chen, Lifeng Shang, Xin Jiang, Xiao Chen, Qun Liu

推荐理由:AutoTinyBERT的实验效果,荣获当前SOTA最佳!

简介:预训练语言模型 (PLM) 在自然语言处理方面取得了巨大成功。大多数 PLM 遵循 BERT 中架构超参数的默认设置(例如,隐藏维度是前馈子网络中间维度的四分之一)(Devlin 等,2019)。很少有研究探索 BERT 中架构超参数的设计,特别是对于小尺寸的更高效 PLM,这对于在资源受限设备上的实际部署至关重要。在本文中,我们采用一次性神经架构搜索(NAS)来自动搜索架构超参数。具体来说,我们精心设计了一次性学习和搜索空间的技术,为各种延迟约束提供了一种自适应且高效的微型 PLM 开发方式。我们将我们的方法命名为 AutoTinyBERT,并评估其在 GLUE 和 SQuAD 基准测试中的有效性。大量实验表明,我们的方法优于基于 SOTA 搜索的基线(NAS-BERT)和基于 SOTA 蒸馏的方法(例如 DistilBERT、TinyBERT、MiniLM 和 MobileBERT)。此外,基于获得的架构,我们提出了一种更高效的开发方法,甚至比单个 PLM 的开发速度还要快。

下载地址: https://arxiv.org/pdf/2107.13686.pdf  

HUB地址: https://hub.baai.ac.cn/view/9535  

内容中包含的图片若涉及版权问题,请及时与我们联系删除