Improving Alignment and Robustness with Circuit Breakers

2024年06月06日
  • 简介
    AI系统可能会采取有害行动,并且极易受到对抗攻击的影响。我们提出了一种方法,受到最近代表性进展在表示工程方面的启发,该方法使用“断路器”中断模型响应有害输出。现有的旨在改善对齐的技术,例如拒绝训练,往往被绕过。对抗训练等技术试图通过对抗特定攻击来弥补这些漏洞。作为拒绝训练和对抗训练的替代方案,断路器直接控制负责产生有害输出的表示形式。我们的技术可应用于仅文本和多模态语言模型,以防止生成有害输出,而不会牺牲效用,即使在强大的未知攻击存在的情况下也是如此。值得注意的是,尽管独立图像识别中的对抗鲁棒性仍然是一个未解决的挑战,但断路器允许更大的多模态系统可靠地抵御旨在产生有害内容的图像“劫持”。最后,我们将我们的方法扩展到AI代理,当它们受到攻击时,漏洞率显著降低。我们的方法在开发可靠的防止有害行为和对抗攻击的保障方面迈出了重要一步。
  • 图表
  • 解决问题
    如何防止人工智能系统做出有害行为和受到对抗性攻击?
  • 关键思路
    通过使用“断路器”中断模型生成有害输出的过程,控制负责有害输出的表示,从而防止有害行为和对抗性攻击。
  • 其它亮点
    论文提出的方法可以应用于文本和多模态语言模型,可以在不牺牲效用的情况下防止生成有害输出,并且可以可靠地抵御图像“劫持”。实验结果表明,该方法可以显著降低AI代理受到攻击时的有害行为率。
  • 相关研究
    相关研究包括拒绝训练和对抗性训练等技术,以及针对特定攻击的对抗性防御方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论