MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models

2024年06月11日
  • 简介
    由于大型语言模型(LLMs)的显著进展,多模态大型语言模型(MLLMs)在多个任务中展现出令人印象深刻的能力。然而,MLLMs的实际应用场景非常复杂,容易受到潜在恶意指令的影响,从而带来安全风险。虽然当前的基准测试确实包含了某些安全考虑因素,但它们往往缺乏全面的覆盖范围,无法展示必要的严谨性和鲁棒性。例如,通常使用GPT-4V作为评估器和被评估模型的常见做法缺乏可信度,因为它往往会对自己的回答产生偏见。在本文中,我们提出了MLLMGuard,这是一个多维度的MLLM安全评估套件,包括双语图像-文本评估数据集、推理工具和轻量级评估器。MLLMGuard的评估全面涵盖了两种语言(英语和中文)和五个重要的安全维度(隐私、偏见、有害性、真实性和合法性),每个维度都有相应的丰富子任务。我们的评估数据集主要来自社交媒体等平台,融合了基于文本和图像的红队技术,并由人类专家进行了细致的注释,这可以防止使用开源数据集时因数据泄露而导致的评估不准确,并确保我们基准测试的质量和挑战性质。此外,我们还开发了一个完全自动化的轻量级评估器GuardRank,其评估准确度显著高于GPT-4。我们对13种先进模型的评估结果表明,MLLMs在被认为是安全和负责任之前还有很长的路要走。
  • 作者讲解
  • 图表
  • 解决问题
    MLLMGuard试图解决多模态大语言模型(MLLMs)在实际应用中可能面临的安全风险问题,包括隐私、偏见、毒性、真实性和合法性等方面的问题。
  • 关键思路
    MLLMGuard提出了一个多维度安全评估套件,包括双语图像文本评估数据集、推理工具和轻量级评估器。通过涵盖两种语言和五个重要的安全维度,以及相应的子任务,MLLMGuard的评估更加全面且具有鲁棒性。同时,MLLMGuard还开发了一个全自动的轻量级评估器GuardRank,其评估准确性显著高于GPT-4。
  • 其它亮点
    论文的亮点包括:使用社交媒体平台数据进行评估,采用文本和图像的红队技术进行注释,确保了数据集的质量和挑战性;开发了一个全自动的轻量级评估器GuardRank,其评估准确性显著高于GPT-4;MLLMGuard的评估结果表明,MLLMs在安全和责任方面仍有很长的路要走。
  • 相关研究
    最近在这个领域中,还有一些相关的研究。例如,《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》探讨了大型语言模型的危险性;《Towards Debiasing Vision and Language Models for Visual Reasoning: A Unified Approach》探讨了如何减轻视觉和语言模型中的偏见问题。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问