Demystifying Verbatim Memorization in Large Language Models

简介

大型语言模型（LLMs）经常完全记忆长序列，这常常涉及到严重的法律和隐私问题。以前的研究已经使用观察数据研究了这种逐字记忆。为了补充这些研究，我们开发了一个框架来研究控制环境下的逐字记忆，通过在Pythia检查点中注入序列来继续预训练。我们发现：（1）需要重复非平凡的数量才能发生逐字记忆；（2）后期（可能更好的）检查点更有可能逐字记忆序列，即使是分布外的序列；（3）记忆序列的生成是由分布式模型状态触发的，这些状态编码了高级特征，并且充分利用了通用的语言建模能力。在这些洞见的指导下，我们开发了压力测试来评估遗忘方法，发现它们通常无法删除逐字记忆的信息，同时也会降低LM的质量。总的来说，这些发现挑战了逐字记忆源于特定模型权重或机制的假设。相反，逐字记忆与LM的通用能力交织在一起，因此很难在不降低模型质量的情况下隔离和抑制它。
图表
解决问题

论文探讨大型语言模型（LLMs）如何记忆长序列，以及如何在不影响模型质量的情况下去除这些记忆的方法。
关键思路

论文通过注入序列并继续预训练的方式，探究LLMs如何记忆长序列，发现记忆与模型的一般能力紧密相关，因此去除这些记忆会影响模型质量。
其它亮点

实验表明，重复序列是LLMs记忆长序列的必要条件；后期的模型检查点更容易记忆序列，即使是分布不同的序列；记忆序列的生成受到分布式模型状态的影响，这些状态编码了高级特征。
相关研究

相关研究关注LLMs如何记忆长序列，以及如何去除这些记忆。其中一些研究使用观察数据，而本文则提出了一种控制性的实验方法。

Demystifying Verbatim Memorization in Large Language Models

评论