Task-Agnostic Detector for Insertion-Based Backdoor Attacks

2024年03月25日
  • 简介
    文本后门攻击对安全构成重大威胁。目前的检测方法通常依赖于中间特征表示或重构潜在触发器,这些方法是任务特定的,对于问题回答和命名实体识别等任务效果较差。我们介绍了TABDet(任务无关后门检测器),这是一种开创性的任务无关方法,用于后门检测。TABDet利用最终层的logits结合高效的池化技术,实现了三个重要的NLP任务之间的统一logit表示。TABDet可以从各种任务特定模型中共同学习,相比传统的任务特定方法,展示了更高的检测效能。
  • 图表
  • 解决问题
    TABDet论文旨在解决文本后门攻击的安全问题,这种攻击方式会对自然语言处理(NLP)模型造成严重威胁。当前的检测方法通常依赖于中间特征表示或重构潜在触发器,但这些方法仅限于句子分类等特定任务,并在问题回答和命名实体识别等任务中表现不佳。
  • 关键思路
    TABDet是一种创新的任务无关方法,可以检测文本后门攻击。它利用最终层的logits和高效的池化技术,实现了三个主要NLP任务之间的统一logit表示。TABDet可以从不同的任务特定模型中联合学习,相比传统的任务特定方法,具有更优越的检测效果。
  • 其它亮点
    论文通过实验验证了TABDet的有效性,并展示了其在多个NLP任务中的性能。此外,论文还开源了代码和数据集,方便其他研究者进行复现和进一步研究。
  • 相关研究
    近期在该领域中的相关研究包括:《Textual Backdoor Attacks on Deep Learning Models: A Comprehensive Review》、《Detecting Backdoor Attacks on Deep Neural Networks by Activation Clustering》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论