Many-Shot Regurgitation (MSR) Prompting

简介

我们介绍了一种新的黑盒成员推断攻击框架，称为Many-Shot Regurgitation (MSR) prompting，用于检查大型语言模型（LLMs）中的逐字复制能力。MSR提示涉及将输入文本分成多个部分，并创建一个单一的提示，其中包括用户和语言模型之间的一系列虚假对话回合，以引出逐字复制。我们将MSR提示应用于各种文本来源，包括维基百科文章和开放教育资源（OER）教科书，这些资源提供高质量的事实内容，并随时间不断更新。对于每个来源，我们筛选出两种数据集类型：一种是LLMs在训练期间可能接触到的($D_{\rm pre}$)，另一种是由模型训练截止日期之后发布的文档($D_{\rm post}$)。为了量化逐字匹配的发生率，我们采用最长公共子字符串算法，并计算在不同长度阈值下的匹配频率。然后，我们使用统计量，如Cliff's delta、Kolmogorov-Smirnov（KS）距离和Kruskal-Wallis H测试，来确定逐字匹配的分布在$D_{\rm pre}$和$D_{\rm post}$之间是否存在显著差异。我们的研究结果揭示了$D_{\rm pre}$和$D_{\rm post}$之间逐字匹配分布的显著差异，当LLMs（如GPT模型和LLaMAs）使用它们可能在训练中接触到的数据集的文本时，逐字复制的频率显著更高。例如，当使用GPT-3.5处理维基百科文章时，我们观察到一个显著的效应大小（Cliff's delta $= -0.984$）和一个大的KS距离（$0.875$）在$D_{\rm pre}$和$D_{\rm post}$之间的分布之间。我们的研究结果提供了有力的证据表明，当输入文本可能来自它们的训练数据时，LLMs更容易复制逐字内容。
图表
解决问题

本文旨在探讨大型语言模型（LLMs）在输入文本中是否会出现逐字复制的现象，并研究这种现象的发生频率是否与模型的训练数据相关。
关键思路

本文提出了一种新的黑盒成员推断攻击框架，称为Many-Shot Regurgitation (MSR) prompting，通过将输入文本分成多个片段并创建一个单一的提示，来引发对LLMs的逐字复制进行检查。研究发现，当LLMs接受的文本与其训练数据相关时，逐字复制的频率明显更高。
其它亮点

本文采用了多种统计方法来分析逐字复制的频率，并在维基百科文章和开放教育资源（OER）教科书等不同文本来源上进行了实验。研究结果表明，当LLMs接受的文本与其训练数据相关时，逐字复制的频率明显更高。此外，本文还提供了一些值得关注的实验细节和数据集信息。
相关研究

最近在这个领域中，还有一些相关的研究，例如《Language Models as Few-Shot Learners》、《The Curious Case of Neural Text Degeneration》等。

Many-Shot Regurgitation (MSR) Prompting

评论