Improving Alignment and Robustness with Short Circuiting

2024年06月06日
  • 简介
    AI系统可能会采取有害行动,并且极易受到对抗性攻击。我们提出了一种方法,受到最近在表示工程方面的进展的启发,该方法在模型产生有害输出时“短路”模型。现有的旨在改善对齐性的技术,例如拒绝训练,通常会被绕过。对抗训练等技术试图通过对抗特定攻击来堵住这些漏洞。作为拒绝训练和对抗训练的替代方案,短路直接控制最初产生有害输出的表示。我们的技术可应用于仅文本和多模式语言模型,以防止生成有害输出,而不会牺牲效用-即使在存在强大的未知攻击的情况下。值得注意的是,尽管独立图像识别的对抗鲁棒性仍然是一个未解决的挑战,但短路使更大的多模式系统能够可靠地抵御旨在产生有害内容的图像“劫持”。最后,我们将我们的方法扩展到AI代理,当它们受到攻击时,显示出有害行动率的显着降低。我们的方法代表了在开发可靠的保障措施以防止有害行为和对抗性攻击方面的重大进展。
  • 图表
  • 解决问题
    解决问题:本文试图通过新的方法来解决AI系统的安全问题,包括对抗攻击和有害输出。
  • 关键思路
    关键思路:本文提出了一种基于表示工程的方法,称为short-circuiting,直接控制导致有害输出的表示,从而防止生成有害输出,而不会牺牲效用。
  • 其它亮点
    其他亮点:本文的方法可以应用于文本和多模态语言模型,并能够在强大的未知攻击的情况下防止生成有害输出。此外,本文还将该方法扩展到AI代理上,证明其能够显著降低代理的有害行为率。
  • 相关研究
    相关研究:最近的相关研究包括拒绝训练和对抗训练等技术,而本文的short-circuiting方法直接控制有害输出的表示,与这些方法有所不同。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问