- 简介视频生成模型(VGMs)已经展示了合成高质量输出的能力。了解它们产生暴力或恐怖视频等不安全内容的潜力非常重要。在这项工作中,我们提供了对不安全视频生成的全面理解。 首先,为了确认这些模型确实能够生成不安全的视频,我们选择了从4chan和Lexica收集的不安全内容生成提示以及三个开源的SOTA VGMs来生成不安全视频。在过滤掉重复和生成质量差的内容后,我们从原始视频池中创建了一个初始的2112个不安全视频集合,通过对这些生成的视频进行聚类和主题编码分析,我们确定了5个不安全视频类别:扭曲/奇怪、恐怖、色情、暴力/血腥和政治。在IRB批准的情况下,我们招募了在线参与者来帮助标记生成的视频。根据403名参与者提交的注释,我们从初始视频集中确定了937个不安全视频。有了标记信息和相应的提示,我们创建了由VGMs生成的第一个不安全视频数据集。 然后,我们研究了可能的防御机制,以防止生成不安全的视频。现有的图像生成防御方法侧重于过滤输入提示或输出结果。我们提出了一种新的方法,称为潜变量防御(LVD),它在模型的内部采样过程中工作。在采样大量不安全提示时,LVD可以实现0.90的防御准确性,同时减少时间和计算资源。
- 图表
- 解决问题论文旨在研究视频生成模型(VGMs)生成不安全视频的可能性,并提出防御机制。
- 关键思路提出一种名为Latent Variable Defense(LVD)的新方法,该方法在模型的内部采样过程中实现防御,能够有效减少不安全视频的生成。
- 其它亮点通过收集4chan和Lexica的不安全内容生成提示,并使用三个开源SOTA VGM生成不安全视频,筛选出2112个不安全视频,并通过IRB批准,招募了403名在线参与者对这些视频进行标注,最终确定了937个不安全视频。提出的LVD方法能够在减少时间和计算资源的同时,实现90%的防御准确率。
- 近期的相关研究包括基于输入提示或输出结果的图像生成防御方法。
沙发等你来抢
去评论
评论
沙发等你来抢