SemRoDe: Macro Adversarial Training to Learn Representations That are Robust to Word-Level Attacks

2024年03月27日
  • 简介
    语言模型(LMs)是自然语言处理任务中不可或缺的工具,但它们对于对抗性攻击的脆弱性仍然是一个问题。尽管当前的研究已经探索了对抗性训练技术,但是它们对于防御单词级攻击的改进仍然有限。在本文中,我们提出了一种新颖的方法,称为语义鲁棒防御(SemRoDe),一种宏观对抗训练策略,以增强LMs的鲁棒性。受到图像领域最近研究的启发,我们调查并证实,在语言这样的离散数据设置中,通过单词替换生成的对抗样本确实属于一个对抗性域,与基础域具有很高的Wasserstein距离。我们的方法学习了一个稳健的表示,桥接了这两个域。我们假设,如果样本没有被投影到对抗性域,而是投影到最小偏移的域中,它将提高攻击的鲁棒性。我们通过加入一种新的基于距离的目标来对齐这些域。通过这种方式,我们的模型能够通过对齐模型的高级输出特征来学习更加广义的表示,从而更好地处理未见过的对抗性样本。即使词汇表和单词替换级别的重叠很小,这种方法也可以推广到词嵌入中。为了评估我们的方法的有效性,我们在三个数据集上对BERT和RoBERTa模型进行了实验。结果表明,我们的方法具有有前途的最先进的鲁棒性。
  • 图表
  • 解决问题
    本文旨在提高语言模型的对抗攻击鲁棒性。作者认为当前的对抗训练技术在防御单词级别的攻击方面的提升有限。
  • 关键思路
    本文提出了一种新的方法,即语义鲁棒防御(SemRoDe),通过宏观对抗训练策略来增强语言模型的鲁棒性。该方法通过将对抗样本投影到最小偏移的域中来对齐两个域,从而学习更加泛化的表示,以更好地处理未见过的对抗样本。
  • 其它亮点
    本文的实验结果表明,该方法在三个数据集上的效果优于当前最先进的防御方法。此外,该方法可以推广到单词嵌入,即使它们在词汇表和单词替换级别上的重叠很小。作者还提供了开源代码。
  • 相关研究
    最近的相关研究包括使用对抗样本训练来提高语言模型的鲁棒性,如Adv-BERT和TextFooler。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论