随着如 BERT、RoBERTa 等预训练模型在一众自然语言处理任务上取得了出色的表现,如何在取得较好性能的前提下,缩小模型的大小,加快模型的推理速度,成为了学术界和工业界的一个热门的研究方向。这篇文章将会介绍基于动态提前退出( Dynamic Early Exiting) 的预训练模型推理加速方面的系列工作,包括简单介绍用于预训练模型推理加速的动态提前退出思想,并且对目前主要的工作和相关改进进行梳理。

内容中包含的图片若涉及版权问题,请及时与我们联系删除