A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures

2024年06月10日
  • 简介
    大型语言模型(LLMs)在人类语言理解和复杂问题解决之间架起了桥梁,在几个NLP任务中取得了最先进的表现,特别是在少样本和零样本设置中。尽管LLMs的效力已被证明,但由于计算资源的限制,用户必须使用开源语言模型或将整个训练过程外包给第三方平台。然而,研究表明,语言模型容易受到潜在的安全漏洞的攻击,特别是在后门攻击方面。后门攻击旨在通过毒化训练样本或模型权重引入有针对性的漏洞,从而允许攻击者通过恶意触发器操纵模型响应。虽然现有的后门攻击调查提供了全面的概述,但它们缺乏对专门针对LLMs的后门攻击进行深入研究。为了弥补这一差距并掌握该领域的最新趋势,本文通过关注微调方法,提出了一种关于LLMs后门攻击的新视角。具体而言,我们将后门攻击系统地分类为三类:全参数微调、参数高效微调和无微调攻击。基于对大量文献的深入审查,我们还讨论了未来后门攻击研究的关键问题,例如进一步探索不需要微调的攻击算法,或开发更隐蔽的攻击算法。
  • 图表
  • 解决问题
    本论文旨在探讨针对大型语言模型的后门攻击,并分类研究三种不同类型的攻击方式,以及未来研究中需要关注的问题。
  • 关键思路
    该论文的关键思路是对大型语言模型的后门攻击进行分类研究,提出三种攻击方式,并探讨了未来研究的方向。
  • 其它亮点
    论文分析了大型语言模型面临的安全漏洞,提出了针对这些漏洞的三种后门攻击方式,并讨论了未来研究的方向。实验使用了多个数据集,并提供了开源代码。
  • 相关研究
    在相关研究方面,该论文与现有的后门攻击研究进行了比较,并提供了对未来研究的建议。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论