A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures

2024年06月10日
  • 简介
    大型语言模型(LLMs)能够弥合人类语言理解和复杂问题解决之间的差距,在几个NLP任务中取得了最先进的性能,特别是在少样本和零样本设置中。尽管LLMs的效果已经得到证明,但由于计算资源的限制,用户必须使用开源语言模型或将整个训练过程外包给第三方平台。然而,研究表明,语言模型容易受到潜在的安全漏洞的攻击,特别是在后门攻击方面。后门攻击旨在通过污染训练样本或模型权重来向语言模型引入有针对性的漏洞,从而允许攻击者通过恶意触发器来操纵模型响应。虽然现有的后门攻击调查提供了全面的概述,但它们缺乏对专门针对LLMs的后门攻击的深入研究。为了弥补这一差距并掌握该领域的最新趋势,本文提出了一种针对LLMs的后门攻击的新视角,重点关注微调方法。具体而言,我们将后门攻击系统地分类为三类:全参数微调、参数高效微调和无微调攻击。基于对大量文献的深入研究,我们还讨论了未来后门攻击研究的关键问题,例如进一步探索不需要微调的攻击算法,或开发更隐蔽的攻击算法。
  • 图表
  • 解决问题
    本论文旨在探讨针对大型语言模型(LLMs)的后门攻击,特别是针对微调方法的后门攻击。研究旨在填补现有后门攻击综述的不足,并提供新的视角和分类方法。
  • 关键思路
    本文系统地将后门攻击分类为三类:全参数微调、参数高效微调和无微调攻击。同时,提出了进一步研究后门攻击算法的关键问题,如探索不需要微调的攻击算法或开发更隐蔽的攻击算法。
  • 其它亮点
    论文使用了多个数据集,包括IMDB、AG News和Yelp等。同时,对现有的后门攻击进行了全面的综述,并提供了分类方法。值得关注的是,本文提出了一些关键问题,如如何检测后门攻击等。
  • 相关研究
    最近的相关研究包括:《DeepInspect: A Black-box Trojan Detection and Mitigation Framework for Deep Learning》、《A Survey of Deep Learning: Platforms, Applications and Research Directions》和《A Comprehensive Survey of Deep Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论