近年来,大规模预训练语言模型给自然语言处理领域带来了翻天覆地的变化。
一提到预训练模型为什么好,标准回答往往是:利用了无标注自监督学习数据,习得了语言学与语义知识,并有效迁移到下游任务中。
然而,预训练模型究竟如何运用预训练过程中记住的内容呢?
本文作者借助英文习语生成任务,探秘预训练模型的记忆唤起机制。
作者发现,在记忆唤起中,底层结构存储与检索可能的表达组合,并形成若干候选,而上层结构会进一步强化模型的信心。

论文链接:https://arxiv.org/abs/2210.03588
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢