Transferring Troubles: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning

2024年04月30日
  • 简介
    本文探讨了多语言大型语言模型(LLMs)面临的后门攻击的影响,尤其是在跨语言背景下的后门攻击。这种攻击可以通过在训练期间嵌入恶意行为并在特定条件下触发恶意输出来实现。本研究的重点是研究在一个或两个语言中污染指令调整数据如何影响未污染指令调整数据的语言的输出。尽管方法简单,但我们的实证分析表明,我们的方法在mT5、BLOOM和GPT-3.5-turbo等模型中表现出显著的功效,攻击成功率很高,在各种情况下超过95%。令人担忧的是,我们的发现还表明,较大的模型显示出更高的可转移跨语言后门攻击的易感性,这也适用于主要在英语数据上预训练的LLMs,如Llama2、Llama3和Gemma。此外,我们的实验表明,即使在改写之后,触发器仍然可以起作用,并且后门机制在25种语言的跨语言响应设置中证明了高度有效性,实现了50%的平均攻击成功率。我们的研究旨在凸显当前多语言LLMs存在的漏洞和重大安全风险,强调了有针对性的安全措施的紧迫性。
  • 图表
  • 解决问题
    本论文旨在探讨跨语言后门攻击对多语言大语言模型的影响,特别是研究在一个或两个语言的指令调整数据中注入恶意行为如何影响未被注入恶意行为的语言的输出。
  • 关键思路
    本文提出的跨语言后门攻击方法在多个语言模型中表现出高攻击成功率,甚至可以在对抗重度防御的情况下成功触发后门,证明了跨语言后门攻击对多语言大语言模型的威胁。
  • 其它亮点
    本文实验设计合理,使用了多个数据集和语言模型,并开源了代码。值得进一步研究的是如何提高多语言大语言模型的安全性,以及如何防止跨语言后门攻击。
  • 相关研究
    最近的相关研究包括《Backdoor Attacks Against Language Models》、《Defending Against Backdoor Attacks on Deep Learning Based Recommender Systems》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论