微调背后发生了什么？

大模型论文

吴继芳 2021-10-08 15:19 分享

以下文章来源于zhuanlan.zhihu.com

自从BERT刷榜各大NLP任务后，预训练+微调成了新的范式。可是，微调对于BERT的影响仍然是知之甚少。今天带来的这篇论文用分类器和DIRECTPROB从以下两方面介绍了微调对于BERT的影响：

为何微调能够提升模型的表现？
微调是如何改变用以编码词句的空间结构？

论文标题：A Closer Look at How Fine-tuning Changes BERT

论文地址：https://arxiv.org/pdf/2106.14282.pdf

论文核心发现：

微调会对相同标签的点进行聚类，比之前更易被线性分割开
微调会让不同标签之间的距离变大，可容纳更多的分类器。这也就意味着分类的方法变多了，即泛化能力变强
微调不会随意改变原始表示，保留了标签之间的相对距离，而为下游任务调整到不同的空间
微调会让模型记住训练集，有过拟合的风险
低层和高层在微调的过程中都会改变，而低层的变化更加轻微

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

沙发等你来抢

去评论