VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models

2024年03月10日
  • 简介
    Sora的出现标志着文本到视频扩散模型的一个新时代,带来了视频生成和潜在应用的重大进展。然而,Sora以及其他文本到视频扩散模型高度依赖于提示,目前没有公开可用的数据集包含对文本到视频提示的研究。本文介绍了VidProM,这是第一个包含来自真实用户的1.67百万个独特文本到视频提示的大规模数据集。此外,数据集还包括由四种最先进的扩散模型生成的6.69百万个视频和一些相关数据。我们首先展示了这个耗时且昂贵的大规模数据集的策划,随后展示了VidProM如何与DiffusionDB不同,DiffusionDB是一个用于图像生成的大规模提示库数据集。通过对这些提示的分析,我们确定了需要一个专门设计用于文本到视频生成的新提示数据集,并深入了解了真实用户在创建视频时的偏好。我们的大规模且多样化的数据集也启发了许多令人兴奋的新研究领域。例如,为了开发更好、更高效、更安全的文本到视频扩散模型,我们建议探索文本到视频提示工程、高效视频生成和扩散模型的视频复制检测。我们在GitHub和Hugging Face上以CC-BY-NC 4.0许可证公开了收集的数据集VidProM。
  • 图表
  • 解决问题
    介绍了一个名为VidProM的大规模数据集,旨在解决当前缺乏针对文本到视频生成模型的提示数据集的问题。
  • 关键思路
    提供了一个包含167万个文本提示和669万个由四种最先进的扩散模型生成的视频的数据集,为文本到视频生成模型的研究提供了新的数据资源。
  • 其它亮点
    该数据集的收集是一个耗时且昂贵的过程,数据集的多样性和规模为开展更多的研究提供了机会,包括文本到视频提示工程、高效视频生成和视频复制检测等方面。
  • 相关研究
    最近的相关研究包括DiffusionDB,这是一个针对图像生成的大规模提示库数据集。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论