- 简介最近Sora的发展引领了文本到视频(T2V)生成的新时代。随之而来的是对其安全风险的日益关注。生成的视频可能包含非法或不道德的内容,而且对它们的安全性缺乏全面的定量理解,这给它们的可靠性和实际部署带来了挑战。以往的评估主要集中在视频生成的质量上。虽然一些文本到图像模型的评估已经考虑到了安全性,但它们涵盖的方面较少,也没有解决视频生成中固有的独特时间风险。为了弥补这一研究空白,我们介绍了T2VSafetyBench,这是一个新的基准,用于进行文本到视频模型的安全关键评估。我们定义了视频生成安全的12个关键方面,并使用LLMs和越狱提示攻击构建了一个恶意提示数据集。基于我们的评估结果,我们得出了几个重要的发现,包括:1)没有单一模型在所有方面都表现出色,不同的模型显示出不同的优势;2)GPT-4评估和手动审核之间的相关性通常很高;3)在文本到视频生成模型的可用性和安全性之间存在权衡。这表明,随着视频生成领域的快速发展,安全风险将会激增,突显了优先考虑视频安全的紧迫性。我们希望T2VSafetyBench能够为更好地理解生成AI时代的视频生成安全性提供见解。
- 图表
- 解决问题本文旨在解决文本生成视频(T2V)模型的安全问题,构建了一个新的基准测试集T2VSafetyBench,用于评估T2V模型的12个关键安全方面。
- 关键思路本文提出了一种新的基准测试集T2VSafetyBench,用于评估T2V模型的安全性。通过构建恶意提示数据集和进行LLMs和越狱提示攻击,评估了T2V模型在12个关键安全方面的表现。
- 其它亮点本文发现不同的T2V模型在不同的安全方面表现出不同的优势,GPT-4评估和手动审核的相关性普遍较高,使用T2VSafetyBench可以更好地了解生成AI时代视频生成的安全问题。
- 近期的相关研究包括文本生成图像(T2I)模型的安全性评估,但没有考虑到视频生成中的时间风险。
沙发等你来抢
去评论
评论
沙发等你来抢