Multi-granular Adversarial Attacks against Black-box Neural Ranking Models

2024年04月02日
  • 简介
    对抗性排名攻击因其在探测神经排名模型的漏洞并增强其鲁棒性方面的成功而受到越来越多的关注。传统的攻击方法仅对目标文档的单个粒度(例如单词级或句子级)进行扰动。然而,将扰动限制在单个粒度上可能会降低创建对抗性示例的灵活性,从而减少攻击的潜在威胁。因此,我们专注于通过结合多粒度扰动来生成高质量的对抗性示例。实现这一目标需要解决组合爆炸问题,这需要在所有可能的粒度、位置和文本片段之间确定最佳的扰动组合。为了解决这个挑战,我们将多粒度对抗攻击转化为一个顺序决策过程,其中下一步攻击中的扰动受当前攻击步骤中扰动文档的影响。由于攻击过程只能访问最终状态而没有直接的中间信号,我们使用强化学习来执行多粒度攻击。在强化学习过程中,两个代理人合作工作,以确定多粒度漏洞作为攻击目标,并将扰动候选项组织成最终的扰动序列。实验结果表明,我们的攻击方法在攻击效果和感知性方面均优于现有基线。
  • 作者讲解
  • 图表
  • 解决问题
    本篇论文旨在解决神经排序模型的鲁棒性问题,提出了一种多粒度扰动的方法来生成高质量的对抗样本。
  • 关键思路
    将多粒度对抗攻击转化为一个顺序决策过程,并使用强化学习来实现攻击。
  • 其它亮点
    论文的实验结果表明,该攻击方法在攻击效果和难以察觉性方面均优于现有的基线模型。研究使用了多个数据集,并开源了代码。
  • 相关研究
    近期相关研究包括:'Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency','Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问