- 简介多模态大语言模型(MLLMs)已成为当今生成式人工智能生态系统的基石,引发了科技巨头和初创公司之间的激烈竞争。特别地,MLLM会在给定由图像和问题组成的提示时生成文本响应。虽然最先进的MLLM使用安全过滤器和对齐技术来拒绝不安全的提示,但在这项工作中,我们引入了MLLM-Refusal,这是第一个为安全提示引入拒绝的方法。具体而言,我们的MLLM-Refusal优化了一种几乎不可察觉的拒绝扰动,并将其添加到图像中,导致目标MLLM可能会拒绝包含被扰动图像和安全问题的安全提示。具体而言,我们将MLLM-Refusal制定为一个约束优化问题,并提出了一个算法来解决它。我们的方法为MLLM模型提供者提供了竞争优势,因为竞争MLLM的用户将在不知不觉中使用这些扰动图像作为提示时收到意外的拒绝,从而可能破坏了他们的用户体验。我们在四个数据集上评估了MLLM-Refusal对四个MLLM的影响,证明了它在导致竞争MLLM拒绝安全提示的有效性,同时不影响非竞争MLLM。此外,我们探讨了三种潜在的对策——添加高斯噪声、DiffPure和对抗性训练。我们的结果表明,它们是不足够的:虽然它们可以减轻MLLM-Refusal的有效性,但它们也会牺牲竞争MLLM的准确性和/或效率。代码可在https://github.com/Sadcardation/MLLM-Refusal上找到。
- 图表
- 解决问题本论文旨在引入一种新方法,即MLLM-Refusal,通过对图像进行微小的拒绝扰动,使得目标MLLM在处理包含扰动图像和安全问题的提示时,可能会拒绝安全提示。这是否是一个新问题?
- 关键思路MLLM-Refusal是一种新的方法,它为安全提示引入了微小的拒绝扰动,从而使得目标MLLM可能会拒绝这些提示。作者提出了一种解决方案,通过约束优化问题并提出算法来实现MLLM-Refusal。相比当前领域的研究,这篇论文的思路具有新意。
- 其它亮点论文在四个数据集上评估了MLLM-Refusal的有效性,并探讨了三种潜在的对抗策略。此外,作者还提供了开源代码。MLLM-Refusal为MLLM模型提供商提供了竞争优势,可能会干扰竞争对手MLLM的用户体验。值得进一步研究。
- 最近的相关研究包括使用对抗性扰动攻击MLLM的方法,以及使用对抗性样本来检测MLLM的安全性。例如,相关论文标题包括“Adversarial Attacks on Large Language Models”和“Detecting Safety Issues in Large Language Models via Semantic Path Analysis”。
沙发等你来抢
去评论
评论
沙发等你来抢