- 简介本文讨论了大型语言模型(LLMs)的安全问题,尤其是第三方训练的LLMs的使用日益增多,恶意攻击者可以通过污染攻击引入后门来生成不良输出。虽然在图像领域和分类任务中对此类攻击进行了广泛研究,但是自然语言生成(NLG)任务中的研究还不足。为了弥补这一空白,我们通过一种参数高效的微调方法——前缀微调,对LLM的微调阶段进行了各种污染技术的调查。我们评估了它们在两个生成任务(文本摘要和文本完成)中的有效性,并引入了新的度量标准来量化此类NLG污染攻击的成功和隐蔽性。通过实验,我们发现前缀微调的超参数和触发器设计是影响攻击成功和隐蔽性最关键的因素。此外,我们证明了现有的流行防御措施对我们的污染攻击无效。我们的研究提供了一种系统性的方法,以了解通过PEFT针对NLG任务的污染攻击在广泛的触发器和攻击设置下的情况。我们希望我们的发现能帮助AI安全社区开发有效的防御措施来应对此类威胁。
- 图表
- 解决问题研究针对自然语言生成任务的中毒攻击,以及如何防御这种攻击。
- 关键思路通过前缀微调方法(PEFT)研究各种中毒技术的效果,并引入新的度量标准来量化攻击的成功和隐蔽性。发现前缀微调超参数和触发器设计是影响攻击成功和隐蔽性的最关键因素,现有的防御方法对这种攻击是无效的。
- 其它亮点实验评估了两个生成任务的效果,提出了新的度量标准,研究了各种攻击设置和触发器设计的影响。
- 最近的相关研究包括“Exploring the Security Vulnerabilities of Transformer-based Language Models”和“Adversarial Attacks on Large Language Models via Stepping on the Gas”。
沙发等你来抢
去评论
评论
沙发等你来抢