LLavaGuard: VLM-based Safeguards for Vision Dataset Curation and Safety Assessment

2024年06月07日
  • 简介
    我们介绍了一种基于VLM的安全模型系列LlavaGuard,提供了一个多功能框架来评估视觉内容的安全合规性。具体而言,我们设计了LlavaGuard用于数据集注释和生成模型保护。为此,我们收集和注释了一个高质量的视觉数据集,包含广泛的安全分类法,我们使用它来调整VLM的上下文感知安全风险。作为一个关键的创新,LlavaGuard的新响应包含全面的信息,包括安全评级、违反的安全类别和深入的理由。此外,我们引入的可定制分类法使得LlavaGuard可以针对各种情况进行上下文特定的对齐。我们的实验突出了LlavaGuard在复杂和实际应用中的能力。我们提供了7B到34B参数范围内的检查点,展示了最先进的性能,即使是最小的模型也优于像GPT-4这样的基准线。我们公开了我们的数据集和模型权重,并邀请进一步的研究来解决社区和环境的多样化需求。
  • 图表
  • 解决问题
    LlavaGuard论文旨在提供一种基于VLM的框架,用于评估视觉内容的安全合规性,解决数据集注释和生成模型保护的问题。
  • 关键思路
    LlavaGuard提供了可定制的分类法,使其能够适应各种情境,并且新的响应包含全面的信息,包括安全评级、违反的安全类别和深入的理由。
  • 其它亮点
    论文提供了公开的数据集和模型权重,展示了LlavaGuard在复杂和实际应用中的性能。实验结果表明,即使是最小的模型也优于基线模型,这些模型的参数范围从7B到34B。值得进一步深入研究。
  • 相关研究
    最近的相关研究包括:《Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Variational Autoencoder》、《A Survey of Deep Learning Techniques for Autonomous Driving》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论