经过训练以预测句子中下一个单词的基于机器学习的语言模型已经变得越来越强大,通用和有用,从而在诸如问答,等应用程序中取得了突破性的改进。但是随着语言模型的不断发展,可能会暴露出新的和意料之外的风险,从而要求研究界积极开展工作,以开发出减轻潜在问题的新方法。
这样的风险之一就是模型有可能从训练有据的数据中泄漏细节。虽然这可能是所有大型语言模型都需要考虑的问题,但是如果要公开提供针对私人数据训练的模型,则可能会出现其他问题。因为这些数据集可能很大(数百GB),并且可以从一系列数据源中提取,所以它们有时可能包含敏感数据,包括个人身份信息(PII)-名称,电话号码,地址等,即使经过公开数据训练也是如此。 。这增加了使用此类数据训练的模型可能在其输出中反映其中一些私有细节的可能性。因此,重要的是要确定和最大程度地减少此类泄漏的风险,并为未来的模型制定解决该问题的策略。
GPT-2语言模型
在与,Apple,Stanford,Berkeley和Northeastern University的合作的""中,证明了,只有查询预训练语言模型的能力,才有可能提取特定的片断该模型已存储的训练数据。因此,训练数据提取攻击是对最新的大型语言模型的现实威胁。这项研究代表了一个至关重要的早期步骤,旨在使研究人员了解此类漏洞,以便他们可以采取措施缓解这些漏洞。
语言模型攻击的道德准则如果将训练数据提取攻击应用于可用于公众的模型,但没有针对训练使用的数据集,则其危害最大。但是,由于对这样的数据集进行这项研究可能会带来有害的后果,因此,改为对(由OpenAI开发的大型公共语言模型,仅使用公共数据进行训练)安装了概念训练数据提取攻击。虽然这项工作专门针对GPT-2,但研究结果适用于了解通常在大型语言模型上可能出现的隐私威胁。
机器学习
与其他与隐私和安全相关的研究一样,在实际执行此类攻击之前,请考虑其道德规范。为了最大程度地降低这项工作的潜在风险,使用公开数据开发了这项工作中的训练数据提取攻击。此外,GPT-2模型本身是OpenAI在2019年公开发布的,用于训练GPT-2的培训数据是从公共互联网收集的,任何遵循GPT中记录的数据收集过程的人都可以下载。-2纸。
此外,根据负责任的计算机安全披露准则,模型对提取了PII的个人进行了跟踪,并在获得涉及此数据的引用之前获得其许可。此外,在本作品的所有出版物中,都删除了所有可能识别个人身份的个人识别信息。在分析GPT-2方面,Google还与OpenAI紧密合作。
训练数据提取攻击根据设计,语言模型使生成大量输出数据变得非常容易。通过为模型填充随机短短语,模型可以生成数百万个连续词,即完成句子的可能短语。在大多数情况下,这些延续将是明智文本的良性字符串。例如,当被要求预测字符串" Mary有一点…… "的继续时,语言模型将高度相信下一个标记是单词" lamb "。但是,如果一个特定的培训文档偶然多次重复字符串" Mary有点小袋熊",则该模型可能会预测该短语。
AI
然后,训练数据提取攻击的目标是从语言模型中筛选出数百万个输出序列,并预测要记住的文本。为此,我们的方法利用了以下事实:模型往往对直接从其训练数据中捕获的结果更有信心。这些使我们能够通过检查模型在特定序列上的置信度来预测训练数据中是否使用了结果。
这项工作的主要技术贡献是开发了一种用于高精度推断成员资格的方法,以及从模型中以鼓励记忆内容输出的方式进行采样的技术。我们测试了许多不同的采样策略,其中最成功的采样策略生成的条件取决于各种输入短语。然后,我们比较两种不同语言模型的输出。当一个模型对序列的置信度高,而另一个(同样准确的)模型对序列的置信度低时,则第一个模型可能已经存储了数据。
结果从GPT-2语言模型的1800个候选序列中,我们从公共培训数据中提取了600多个,这些总数受手动验证的限制。所记忆的示例涵盖了广泛的内容,包括新闻标题,日志消息,JavaScript代码,PII等。尽管这些例子很少出现在训练数据集中,但许多例子都被记住。例如,对于许多PII样本,我们仅在数据集中的单个文档中找到了提取的内容。但是,在大多数情况下,原始文档包含多个PII实例,因此,该模型仍将其作为高可能性文本来学习。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢