Rethinking LLM Memorization through the Lens of Adversarial Compression

简介

大规模语言模型（LLMs）在基于网络的数据集上训练引起了关于数据使用的重大担忧。一个主要问题是这些模型是否“记忆”了它们的所有训练数据，或者它们以某种方式整合了许多数据源，更类似于人类学习和综合信息的方式。答案在很大程度上取决于“我们如何定义记忆”。在这项工作中，我们提出了对抗压缩比（ACR）作为评估LLMs中记忆的度量标准——如果给定的训练数据字符串可以通过比字符串本身更短的提示被引出，那么它被认为是被记忆的。换句话说，这些字符串可以通过计算更少令牌的对抗提示来“压缩”模型。我们概述了现有记忆概念的局限性，并展示了ACR如何通过（i）提供对抗视角来衡量记忆，特别是用于监测取消学习和合规性；以及（ii）允许灵活地测量任意字符串的记忆，且计算成本相对较低，来克服这些挑战。我们的定义作为一个有价值且实用的工具，用于确定模型所有者何时可能违反有关数据使用的条款，提供了一个潜在的法律工具和一个关键的视角来解决这些情况。项目页面：https://locuslab.github.io/acr-memorization。
图表
解决问题

如何评估大型语言模型（LLMs）是否记忆了所有的训练数据，以及如何定义记忆的概念？
关键思路

提出了对抗压缩比（ACR）作为衡量LLMs记忆能力的指标，即通过比较字符串本身和模型生成的比该字符串更短的提示，来判断模型是否记忆了该字符串。
其它亮点

ACR指标能够用于监测模型的遗忘和合规性，同时具有测量任意字符串记忆能力的灵活性。该指标可作为确定模型所有者是否违反数据使用条款的实用工具和法律手段。论文提供了实验结果和开源代码。
相关研究

近期相关研究包括：《On the Memorization Properties of Neural Machine Translation Models》、《Understanding Memorization in Recurrent Networks》等。

Rethinking LLM Memorization through the Lens of Adversarial Compression

评论