Cross-Modal Safety Alignment: Is textual unlearning all you need?

2024年05月27日
  • 简介
    最近的研究表明,将新的模态集成到大型语言模型(LLMs)中,例如视觉语言模型(VLMs),会创建一个新的攻击面,绕过现有的安全训练技术,如监督微调(SFT)和带人类反馈的强化学习(RLHF)。虽然可以在多模态设置下进行进一步的SFT和RLHF安全训练,但收集多模态训练数据集面临重大挑战。受最近多模态模型的结构设计启发,其中不管输入模态的组合如何,所有输入最终都融合到语言空间中,我们旨在探索仅在文本领域中进行遗忘是否对跨模态安全对齐有效。我们在六个数据集上的评估在经验上证明了可转移性,即在VLMs中进行文本遗忘显著降低了攻击成功率(ASR)至少不到8%,在某些情况下,甚至低至近2%,同时保留了实用性。此外,我们的实验表明,使用多模态数据集进行遗忘不会带来任何潜在的好处,但会导致显著增加的计算需求,可能高达6倍。
  • 图表
  • 解决问题
    本文旨在解决将视觉语言模型(VLMs)整合到大型语言模型中可能会绕过现有安全训练技术的问题,提出了一种仅在文本领域进行消除学习以实现跨模态安全对齐的方法。
  • 关键思路
    本文提出的解决方案是通过仅在文本领域进行消除学习来实现跨模态安全对齐,该方法可将攻击成功率降低至不到8%,并且保持了实用性。
  • 其它亮点
    本文的实验结果表明,文本领域的消除学习可以显著降低攻击成功率,同时保持实用性。此外,使用多模态数据集进行消除学习并没有潜在的好处,但会导致显著增加的计算需求。本文提出的方法可以为跨模态安全对齐提供一种新的解决方案。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《A Survey of Deep Learning for Multimodal Data》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论