预训练模型的记忆机制解密！

近年来，大规模预训练语言模型给自然语言处理领域带来了翻天覆地的变化。

一提到预训练模型为什么好，标准回答往往是：利用了无标注自监督学习数据，习得了语言学与语义知识，并有效迁移到下游任务中。

然而，预训练模型究竟如何运用预训练过程中记住的内容呢？

本文作者借助英文习语生成任务，探秘预训练模型的记忆唤起机制。

作者发现，在记忆唤起中，底层结构存储与检索可能的表达组合，并形成若干候选，而上层结构会进一步强化模型的信心。

论文链接：https://arxiv.org/abs/2210.03588

内容中包含的图片若涉及版权问题，请及时与我们联系删除