MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models

向作者提问

NEW

简介

由于大型语言模型（LLMs）的显著进展，多模态大型语言模型（MLLMs）在多个任务中展现出令人印象深刻的能力。然而，MLLMs的实际应用场景非常复杂，容易受到潜在恶意指令的影响，从而带来安全风险。虽然当前的基准测试确实包含了某些安全考虑因素，但它们往往缺乏全面的覆盖范围，无法展示必要的严谨性和鲁棒性。例如，通常使用GPT-4V作为评估器和被评估模型的常见做法缺乏可信度，因为它往往会对自己的回答产生偏见。在本文中，我们提出了MLLMGuard，这是一个多维度的MLLM安全评估套件，包括双语图像-文本评估数据集、推理工具和轻量级评估器。MLLMGuard的评估全面涵盖了两种语言（英语和中文）和五个重要的安全维度（隐私、偏见、有害性、真实性和合法性），每个维度都有相应的丰富子任务。我们的评估数据集主要来自社交媒体等平台，融合了基于文本和图像的红队技术，并由人类专家进行了细致的注释，这可以防止使用开源数据集时因数据泄露而导致的评估不准确，并确保我们基准测试的质量和挑战性质。此外，我们还开发了一个完全自动化的轻量级评估器GuardRank，其评估准确度显著高于GPT-4。我们对13种先进模型的评估结果表明，MLLMs在被认为是安全和负责任之前还有很长的路要走。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

MLLMGuard试图解决多模态大语言模型（MLLMs）在实际应用中可能面临的安全风险问题，包括隐私、偏见、毒性、真实性和合法性等方面的问题。
关键思路

MLLMGuard提出了一个多维度安全评估套件，包括双语图像文本评估数据集、推理工具和轻量级评估器。通过涵盖两种语言和五个重要的安全维度，以及相应的子任务，MLLMGuard的评估更加全面且具有鲁棒性。同时，MLLMGuard还开发了一个全自动的轻量级评估器GuardRank，其评估准确性显著高于GPT-4。
其它亮点

论文的亮点包括：使用社交媒体平台数据进行评估，采用文本和图像的红队技术进行注释，确保了数据集的质量和挑战性；开发了一个全自动的轻量级评估器GuardRank，其评估准确性显著高于GPT-4；MLLMGuard的评估结果表明，MLLMs在安全和责任方面仍有很长的路要走。
相关研究

最近在这个领域中，还有一些相关的研究。例如，《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》探讨了大型语言模型的危险性；《Towards Debiasing Vision and Language Models for Visual Reasoning: A Unified Approach》探讨了如何减轻视觉和语言模型中的偏见问题。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问