简介:将预训练模型适配(adapt)于下游任务已经成为获得高质量模型的标准实践。我们提出了一种新的模型适配范式、即剪枝适配(Adpating by Pruning):剪枝预训练模型中的神经连接,以优化目标任务的性能;所有剩余的神经网络连接都保持原有预训练模型中的权重。我们将剪枝适配问题设定为一个可微损失的优化问题,并提出了一种有效的剪枝算法。我们已证明:在标准假设下,该算法接近最优。我们使用该方法将BERT适配到多项GLUE任务中;结果表明,我们的方法可以删减BERT多达50%的权重、而同时能够产生与微调全模型类似的性能。我们还将该方法与其他最新的剪枝方法进行了比较,并研究了剪枝网络的拓扑差异。

论文下载:https://arxiv.org/pdf/2105.03343

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除