Scaling Laws for Data Poisoning in LLMs

简介

最近的研究表明，LLMs容易受到数据污染攻击，即它们被训练在部分损坏或有害的数据上。污染数据很难被检测出来，会破坏防护措施，并导致不良和有害行为。鉴于领先实验室不断努力地训练和部署越来越大、更强大的LLMs，我们有必要问一下，数据污染的风险是否会自然减轻，还是会越来越严重。我们考虑了三种数据污染可能发生的威胁模型：恶意微调、不完美的数据管理和有意的数据污染。我们的实验评估了23个前沿LLMs在三个数据集上的表现，这三个数据集分别涉及到我们的三种威胁模型。我们发现，更大的LLMs越来越容易受到攻击，即使是最小程度的数据污染也会导致学习有害行为，包括沉睡特工行为。这些结果强调了在更大的LLMs中需要强有力的保护措施来防范数据污染。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图研究大型语言模型（LLMs）是否存在数据污染的风险，以及这种风险是否会随着规模的增大而自然减轻。
关键思路

本文通过三种数据污染威胁模型，对23个规模从1.5亿到72亿参数的LLMs在三个数据集上进行实验，发现大型LLMs更容易受到数据污染的影响，学习到有害行为，需要采取强有力的保护措施。
其它亮点

本文的实验设计充分，使用了多个数据集，揭示了大型LLMs的脆弱性。作者提出了一些保护措施，如随机化训练数据、限制模型的自由度等。此外，作者还开源了代码，方便其他研究者进行进一步研究。
相关研究

最近的相关研究包括《数据污染对深度神经网络的攻击》、《对抗性数据污染：对深度学习的新威胁》等。

Scaling Laws for Data Poisoning in LLMs

提问交流

提问交流