自从BERT刷榜各大NLP任务后,预训练+微调成了新的范式。可是,微调对于BERT的影响仍然是知之甚少。今天带来的这篇论文用分类器和DIRECTPROB从以下两方面介绍了微调对于BERT的影响:

  1. 为何微调能够提升模型的表现?

  2. 微调是如何改变用以编码词句的空间结构?

论文标题:A Closer Look at How Fine-tuning Changes BERT

论文地址:https://arxiv.org/pdf/2106.14282.pdf

论文核心发现

  • 微调会对相同标签的点进行聚类,比之前更易被线性分割开
  • 微调会让不同标签之间的距离变大,可容纳更多的分类器。这也就意味着分类的方法变多了,即泛化能力变强
  • 微调不会随意改变原始表示,保留了标签之间的相对距离,而为下游任务调整到不同的空间
  • 微调会让模型记住训练集,有过拟合的风险
  • 低层和高层在微调的过程中都会改变,而低层的变化更加轻微

内容中包含的图片若涉及版权问题,请及时与我们联系删除