- 简介为了减少大型视觉模型(LVMs)产生有害输出的风险,我们引入了SafeSora数据集,以促进关于将文本到视频生成与人类价值观对齐的研究。该数据集包括文本到视频生成任务中人类偏好的两个主要维度:有用性和无害性。为了捕捉深入的人类偏好并促进群众工作者的结构化推理,我们将有用性细分为4个子维度,将无害性细分为12个子类别,作为试点注释的基础。SafeSora数据集包括14,711个独特提示、由4个不同的LVMs生成的57,333个独特视频,以及由人类标记的51,691对偏好注释。我们通过几个应用程序进一步展示了SafeSora数据集的实用性,包括训练文本-视频调节模型和通过微调提示增强模块或扩散模型将LVMs与人类偏好对齐。这些应用程序凸显了它作为文本到视频对齐研究的基础的潜力,例如人类偏好建模和对齐算法的开发和验证。
- 图表
- 解决问题本论文旨在通过SafeSora数据集提供一种新的方法来解决大型视觉模型(LVMs)产生有害输出的风险,以促进文本到视频生成与人类价值观的对齐研究。
- 关键思路SafeSora数据集包含人类在文本到视频生成任务中的偏好,并提供了细分的辅助和无害性维度,为众包工人提供了结构化推理的依据,以捕捉人类的深层偏好。
- 其它亮点SafeSora数据集包括14,711个独特提示,57,333个由4个不同LVM生成的独特视频和51,691对由人类标记的偏好注释。此外,论文还通过几个应用程序展示了SafeSora数据集的实用性,包括训练文本-视频模型和通过fine-tuning提示增强模块或扩散模型来对齐LVMs与人类偏好。这些应用程序突出了SafeSora数据集作为文本到视频对齐研究的基础的潜力。
- 最近的相关研究包括《Aligning AI with Human Values: A Survey》、《Learning to Summarize with Human Feedback》等。
沙发等你来抢
去评论
评论
沙发等你来抢