Google DeepMind等｜对齐的神经网络是否能对抗性地对齐

Are aligned neural networks adversarially aligned?

N Carlini, M Nasr, C A. Choquette-Choo, M Jagielski, I Gao, A Awadalla, P W Koh, D Ippolito, K Lee, F Tramer, L Schmidt
[Google DeepMind & Stanford & University of Washington]

对齐的神经网络是否能对抗性地对齐

动机：大型语言模型现在被微调以符合其创造者的目标，即“有用且无害”。这些模型应对用户问题做出有用的回应，但拒绝回答可能导致伤害的请求。然而，对抗性用户可以构造输入来规避对齐尝试。本文研究这些模型在与构造最坏情况输入(对抗性示例)的对抗性用户交互时，保持对齐的程度。
方法：展示了现有基于NLP的优化攻击不足以可靠地攻击对齐的文本模型：即使当前基于NLP的攻击失败，也可以通过暴力手段找到对抗性输入。然而，大规模机器学习模型的最近趋势是多模态模型，允许用户提供影响生成文本的图像。本文展示了这些模型可以很容易地被攻击，即，通过对输入图像进行对抗性扰动来诱导执行任意的非对齐行为。
优势：本文猜测，改进的NLP攻击可能会展示出对文本模型的这种同级别的对抗性控制。生成了对齐的多模态文本-视觉模型的对抗性图像，这些图像导致了通常不会由模型生成的亵渎或其他有害的输出。

探讨了大型语言模型在面对对抗性用户构造的最坏情况输入时，是否仍能保持其“有用且无害”的目标，结果发现，即使现有的基于NLP的优化攻击失败，也可以通过暴力手段找到对抗性输入，而且多模态模型可以很容易地被攻击，诱导执行任意的非对齐行为。

https://arxiv.org/abs/2306.15447

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Google DeepMind等｜对齐的神经网络是否能对抗性地对齐

评论列表

评论