- 简介图像安全分类器在识别和减轻网络上不安全图像(例如包含暴力、仇恨言论等图像)的传播中扮演着重要角色。同时,随着文本转图像模型的出现和对AI模型安全性的日益关注,开发人员越来越依赖于图像安全分类器来保护其模型。然而,当前图像安全分类器在处理现实世界和AI生成的图像时的性能仍然未知。为了弥补这一研究空白,在本研究中,我们提出了一个基准测试框架UnsafeBench,用于评估图像安全分类器的有效性和鲁棒性。首先,我们收集了一组10K个现实世界和AI生成的图像,这些图像根据11种不安全图像类别(性、暴力、仇恨等)进行标注。然后,我们评估了五种流行的图像安全分类器的有效性和鲁棒性,以及三种由通用视觉语言模型驱动的分类器。我们的评估表明,现有的图像安全分类器在减轻不安全图像的多方面问题方面并不全面和有效。此外,我们发现,仅在现实世界图像上训练的分类器在应用于AI生成的图像时往往性能下降。受这些发现的启发,我们设计和实现了一个全面的图像审查工具PerspectiveVision,它可以有效地识别11种现实世界和AI生成的不安全图像类别。最佳的PerspectiveVision模型在六个评估数据集上实现了0.810的总体F1-Score,与GPT-4V等闭源和昂贵的最先进模型相当。UnsafeBench和PerspectiveVision可以帮助研究社区更好地了解生成AI时代的图像安全分类的现状。
-
- 图表
- 解决问题评估现有图像安全分类器的有效性和鲁棒性,以及其在识别真实世界和AI生成图像方面的性能差异。
- 关键思路提出了一个基准测试框架UnsafeBench,评估了五种流行的图像安全分类器和三种由通用视觉语言模型驱动的分类器的有效性和鲁棒性。研究发现现有的图像安全分类器在减轻不安全图像的多方面问题方面并不全面和有效,并且仅在真实世界图像上训练的分类器在应用于AI生成图像时性能下降。为此,设计并实现了一个名为PerspectiveVision的综合图像审查工具,能够有效识别11种真实世界和AI生成的不安全图像。
- 其它亮点研究使用了一个由10K个真实世界和AI生成图像组成的数据集,这些图像根据11个不安全图像类别(性、暴力、仇恨等)进行了注释。最佳PerspectiveVision模型在六个评估数据集上实现了0.810的整体F1-Score,与闭源和昂贵的最先进模型如GPT-4V相当。研究结果表明,UnsafeBench和PerspectiveVision可以帮助研究社区更好地了解生成AI时代图像安全分类的现状。
- 近期的相关研究包括《A Survey on Deep Learning-based Image Classification》、《Image Recognition Using Deep Learning: A Survey》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流