- 简介我们介绍了一种新的黑盒成员推断攻击框架,称为Many-Shot Regurgitation (MSR) prompting,用于检查大型语言模型(LLMs)中的逐字复制能力。MSR提示涉及将输入文本分成多个部分,并创建一个单一的提示,其中包括用户和语言模型之间的一系列虚假对话回合,以引出逐字复制。我们将MSR提示应用于各种文本来源,包括维基百科文章和开放教育资源(OER)教科书,这些资源提供高质量的事实内容,并随时间不断更新。对于每个来源,我们筛选出两种数据集类型:一种是LLMs在训练期间可能接触到的($D_{\rm pre}$),另一种是由模型训练截止日期之后发布的文档($D_{\rm post}$)。为了量化逐字匹配的发生率,我们采用最长公共子字符串算法,并计算在不同长度阈值下的匹配频率。然后,我们使用统计量,如Cliff's delta、Kolmogorov-Smirnov(KS)距离和Kruskal-Wallis H测试,来确定逐字匹配的分布在$D_{\rm pre}$和$D_{\rm post}$之间是否存在显著差异。我们的研究结果揭示了$D_{\rm pre}$和$D_{\rm post}$之间逐字匹配分布的显著差异,当LLMs(如GPT模型和LLaMAs)使用它们可能在训练中接触到的数据集的文本时,逐字复制的频率显著更高。例如,当使用GPT-3.5处理维基百科文章时,我们观察到一个显著的效应大小(Cliff's delta $= -0.984$)和一个大的KS距离($0.875$)在$D_{\rm pre}$和$D_{\rm post}$之间的分布之间。我们的研究结果提供了有力的证据表明,当输入文本可能来自它们的训练数据时,LLMs更容易复制逐字内容。
- 图表
- 解决问题本文旨在探讨大型语言模型(LLMs)在输入文本中是否会出现逐字复制的现象,并研究这种现象的发生频率是否与模型的训练数据相关。
- 关键思路本文提出了一种新的黑盒成员推断攻击框架,称为Many-Shot Regurgitation (MSR) prompting,通过将输入文本分成多个片段并创建一个单一的提示,来引发对LLMs的逐字复制进行检查。研究发现,当LLMs接受的文本与其训练数据相关时,逐字复制的频率明显更高。
- 其它亮点本文采用了多种统计方法来分析逐字复制的频率,并在维基百科文章和开放教育资源(OER)教科书等不同文本来源上进行了实验。研究结果表明,当LLMs接受的文本与其训练数据相关时,逐字复制的频率明显更高。此外,本文还提供了一些值得关注的实验细节和数据集信息。
- 最近在这个领域中,还有一些相关的研究,例如《Language Models as Few-Shot Learners》、《The Curious Case of Neural Text Degeneration》等。
沙发等你来抢
去评论
评论
沙发等你来抢