随着大型语言模型(LLMs)在现实世界中的广泛应用,对于企业使用未经许可的互联网数据训练模型的版权案件也随之增加。最近的研究提出了一些方法,可以确定单个文本序列是否是模型的训练数据的成员,这被称为成员推断攻击(MIAs)。我们证明了这些MIAs的表现成功是被选择的非成员(未用于训练的文本序列)所混淆的,这些非成员来自于与成员不同的分布(例如,与用于训练模型的早期维基百科文章相比,时间上稍晚的维基百科文章)。这种分布偏移使成员推断看起来是成功的。然而,大多数MIA方法在区分来自同一分布的成员和非成员时表现不比随机猜测好(例如,在这种情况下,是同一时间段)。即使MIAs有效,我们发现不同的MIAs能够成功地推断来自不同分布的样本的成员身份。因此,我们提出了一种新的数据集推断方法,以准确地识别用于训练大型语言模型的数据集。这种方法适用于现代版权法律框架,因为作者声称LLM是由他们撰写的多个文档(如一本书)训练而成,而不是一个特定的段落。虽然数据集推断面临着许多成员推断的挑战,但我们通过有选择地组合为给定分布提供积极信号的MIAs并聚合它们来对给定数据集进行统计测试来解决这个问题。我们的方法成功地区分了Pile不同子集的训练集和测试集,并且在没有任何误报的情况下具有具有统计学意义的p值<0.1。
提问交流