- 简介最近的研究表明,LLMs容易受到数据污染攻击,即它们被训练在部分损坏或有害的数据上。污染数据很难被检测出来,会破坏防护措施,并导致不良和有害行为。鉴于领先实验室不断努力地训练和部署越来越大、更强大的LLMs,我们有必要问一下,数据污染的风险是否会自然减轻,还是会越来越严重。我们考虑了三种数据污染可能发生的威胁模型:恶意微调、不完美的数据管理和有意的数据污染。我们的实验评估了23个前沿LLMs在三个数据集上的表现,这三个数据集分别涉及到我们的三种威胁模型。我们发现,更大的LLMs越来越容易受到攻击,即使是最小程度的数据污染也会导致学习有害行为,包括沉睡特工行为。这些结果强调了在更大的LLMs中需要强有力的保护措施来防范数据污染。
-
- 图表
- 解决问题本文试图研究大型语言模型(LLMs)是否存在数据污染的风险,以及这种风险是否会随着规模的增大而自然减轻。
- 关键思路本文通过三种数据污染威胁模型,对23个规模从1.5亿到72亿参数的LLMs在三个数据集上进行实验,发现大型LLMs更容易受到数据污染的影响,学习到有害行为,需要采取强有力的保护措施。
- 其它亮点本文的实验设计充分,使用了多个数据集,揭示了大型LLMs的脆弱性。作者提出了一些保护措施,如随机化训练数据、限制模型的自由度等。此外,作者还开源了代码,方便其他研究者进行进一步研究。
- 最近的相关研究包括《数据污染对深度神经网络的攻击》、《对抗性数据污染:对深度学习的新威胁》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流