- 简介由于大型语言模型(LLMs)的显著进展,多模态大型语言模型(MLLMs)在多个任务中展现出令人印象深刻的能力。然而,MLLMs的实际应用场景非常复杂,容易受到潜在恶意指令的影响,从而带来安全风险。虽然当前的基准测试确实包含了某些安全考虑因素,但它们往往缺乏全面的覆盖范围,无法展示必要的严谨性和鲁棒性。例如,通常使用GPT-4V作为评估器和被评估模型的常见做法缺乏可信度,因为它往往会对自己的回答产生偏见。在本文中,我们提出了MLLMGuard,这是一个多维度的MLLM安全评估套件,包括双语图像-文本评估数据集、推理工具和轻量级评估器。MLLMGuard的评估全面涵盖了两种语言(英语和中文)和五个重要的安全维度(隐私、偏见、有害性、真实性和合法性),每个维度都有相应的丰富子任务。我们的评估数据集主要来自社交媒体等平台,融合了基于文本和图像的红队技术,并由人类专家进行了细致的注释,这可以防止使用开源数据集时因数据泄露而导致的评估不准确,并确保我们基准测试的质量和挑战性质。此外,我们还开发了一个完全自动化的轻量级评估器GuardRank,其评估准确度显著高于GPT-4。我们对13种先进模型的评估结果表明,MLLMs在被认为是安全和负责任之前还有很长的路要走。
-
- 图表
- 解决问题MLLMGuard试图解决多模态大语言模型(MLLMs)在实际应用中可能面临的安全风险问题,包括隐私、偏见、毒性、真实性和合法性等方面的问题。
- 关键思路MLLMGuard提出了一个多维度安全评估套件,包括双语图像文本评估数据集、推理工具和轻量级评估器。通过涵盖两种语言和五个重要的安全维度,以及相应的子任务,MLLMGuard的评估更加全面且具有鲁棒性。同时,MLLMGuard还开发了一个全自动的轻量级评估器GuardRank,其评估准确性显著高于GPT-4。
- 其它亮点论文的亮点包括:使用社交媒体平台数据进行评估,采用文本和图像的红队技术进行注释,确保了数据集的质量和挑战性;开发了一个全自动的轻量级评估器GuardRank,其评估准确性显著高于GPT-4;MLLMGuard的评估结果表明,MLLMs在安全和责任方面仍有很长的路要走。
- 最近在这个领域中,还有一些相关的研究。例如,《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》探讨了大型语言模型的危险性;《Towards Debiasing Vision and Language Models for Visual Reasoning: A Unified Approach》探讨了如何减轻视觉和语言模型中的偏见问题。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流