Cross-Modality Safety Alignment

简介

随着人工通用智能（AGI）越来越多地融入人类生活的各个方面，确保这些系统的安全性和道德准则是至关重要的。以往的研究主要关注单一模态的威胁，但这可能不足以应对跨模态交互的综合和复杂性。我们引入了一个新的安全对齐挑战，称为“安全输入但不安全输出”（SIUO），以评估跨模态安全对齐。具体而言，它考虑了单一模态在独立情况下是安全的，但在组合时可能导致不安全或不道德的输出的情况。为了实证研究这个问题，我们开发了 SIUO，这是一个跨模态基准，包括 9 个关键安全领域，例如自我伤害、非法活动和隐私侵犯。我们的研究结果揭示了封闭和开源 LVLMs（如 GPT-4V 和 LLaVA）存在重大的安全漏洞，强调当前模型在可靠地解释和应对复杂的现实情况方面的不足。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决跨模态安全对齐问题，即单模态输入独立安全但组合后可能导致不安全或不道德的输出。作者提出了一个名为SIUO的新的安全对齐挑战，以评估跨模态安全对齐问题。
关键思路

论文提出了一个跨模态基准测试SIUO，包括9个关键安全领域，揭示了当前模型在可靠地解释和应对复杂的真实场景方面的不足之处。
其它亮点

论文开发了一个跨模态基准测试SIUO，涵盖了自我伤害、非法活动和隐私侵犯等9个关键安全领域。实验结果表明，当前的模型存在严重的安全漏洞，包括闭源和开源LVLMs，如GPT-4V和LLaVA。
相关研究

最近的相关研究包括单模态威胁和跨模态安全对齐，如CrossView、COSAFE和SafeLife。

提问交流

提问交流