自从BERT刷榜各大NLP任务后,预训练+微调
成了新的范式。可是,微调对于BERT的影响仍然是知之甚少。今天带来的这篇论文用分类器和DIRECTPROB从以下两方面介绍了微调对于BERT的影响:
-
为何微调能够提升模型的表现?
-
微调是如何改变用以编码词句的空间结构?
论文标题:A Closer Look at How Fine-tuning Changes BERT
论文地址:https://arxiv.org/pdf/2106.14282.pdf
论文核心发现:
- 微调会对相同标签的点进行聚类,比之前更易被线性分割开
- 微调会让不同标签之间的距离变大,可容纳更多的分类器。这也就意味着分类的方法变多了,即泛化能力变强
- 微调不会随意改变原始表示,保留了标签之间的相对距离,而为下游任务调整到不同的空间
- 微调会让模型记住训练集,有过拟合的风险
- 低层和高层在微调的过程中都会改变,而低层的变化更加轻微
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢