近年来,大规模预训练语言模型给自然语言处理领域带来了翻天覆地的变化。

一提到预训练模型为什么好,标准回答往往是:利用了无标注自监督学习数据,习得了语言学与语义知识,并有效迁移到下游任务中。

然而,预训练模型究竟如何运用预训练过程中记住的内容呢?

本文作者借助英文习语生成任务,探秘预训练模型的记忆唤起机制。

作者发现,在记忆唤起中,底层结构存储与检索可能的表达组合,并形成若干候选,而上层结构会进一步强化模型的信心。

论文链接https://arxiv.org/abs/2210.03588

阅读详情

内容中包含的图片若涉及版权问题,请及时与我们联系删除