论文链接:http://34.94.61.102/paper_AAAI-384.html

预训练模型的增加显著促进了迁移学习在有限数据任务上的表现。然而,迁移学习的进展主要集中在优化预训练模型的权值上,而忽略了模型与目标任务之间的结构不匹配。本文的目的是从另一个角度提高传递性能——除了调整权值外,我们还调整了预训练模型的结构,以便更好地匹配目标任务。为此,文章提出了transtailer,旨在对预先训练好的迁移学习模型进行剪枝。与传统的剪枝管道不同,我们根据目标感知权重重要性对预先训练好的模型进行剪枝和微调,生成一个针对特定目标任务的最优子模型。通过这种方式,文章传递了一个更合适的子结构,可以在微调过程中应用该子结构以提高最终性能。在多个预先训练好的模型和数据集上进行的大量实验表明,transtailer的性能优于传统的剪枝方法,并且在使用较小的模型时比其他最先进的迁移学习方法具有更好的性能。值得注意的是,在斯坦福狗的数据集上,transtailer可以实现2.7\%的精度提高,比其他传输方法的失败次数少20%。

内容中包含的图片若涉及版权问题,请及时与我们联系删除