GenFighter: A Generative and Evolutive Textual Attack Removal

2024年04月17日
  • 简介
    本文介绍了一种名为GenFighter的新型防御策略,可以增强深度神经网络(DNN)如自然语言处理(NLP)中的Transformer模型对对抗攻击的鲁棒性。GenFighter通过学习和推理训练分类分布来识别潜在的恶意实例,将它们转换为与训练数据对齐的语义等效实例,并采用集成技术进行统一和强大的响应。通过进行广泛的实验,我们展示了GenFighter在受攻击时的准确性和攻击成功率指标方面优于最先进的防御策略。此外,它需要每次攻击的高查询数量,使得在实际场景中攻击更具挑战性。消融研究表明,我们的方法集成了迁移学习、生成/进化过程和集成方法,提供了一种有效的NLP对抗攻击防御。
  • 图表
  • 解决问题
    本论文旨在解决深度神经网络(DNN)在自然语言处理(NLP)中面临的对抗攻击问题,并提出一种新的防御策略GenFighter。
  • 关键思路
    GenFighter通过学习和推理训练分类分布来提高对抗鲁棒性,识别潜在的恶意实例并将其转换为与训练数据对齐的语义等效实例,并采用集成技术进行统一和鲁棒的响应。
  • 其它亮点
    论文在广泛的实验中表明,GenFighter在受攻击时的准确性和攻击成功率方面优于现有的防御策略。同时,它需要每次攻击高数量的查询,使得攻击在实际场景中更具挑战性。论文采用了转移学习、生成/进化过程和集成方法,提供了一种有效的NLP对抗攻击防御策略。
  • 相关研究
    近期在该领域中的相关研究包括:1. Adversarial Training Methods for Semi-Supervised Text Classification(EMNLP 2018);2. A Comprehensive Survey on Text Attack and Defense(arXiv 2020);3. Adversarial Examples for Natural Language Classification Problems(ACL 2018)等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论