【推荐理由】本文提出了CelebV-Text,一个大规模、多样化和高质量的人脸文本-视频数据集,以促进人脸文本到视频生成任务的研究。

Jianhui Yu, Hao Zhu, Liming Jiang, Chen Change Loy, Weidong Cai, Wayne Wu
University of Sydney & SenseTime Research & S-Lab & Nanyang Technological University & Shanghai AI Laboratory

【论文链接】https://arxiv.org/pdf/2303.14717.pdf

【项目链接】https://celebv-text.github.io/

【摘要】文本驱动的生成模型在视频生成和编辑领域得到了快速发展。然而,由于缺乏一个包含高质量视频和高度相关文本的适当数据集,以人脸为中心的文本到视频生成仍然是一个挑战。本文提出了CelebV-Text,一个大规模、多样化和高质量的人脸文本-视频数据集,以促进人脸文本到视频生成任务的研究。CelebV-Text包括70,000个野外面部视频剪辑,具有多样化的视觉内容,每个剪辑都配对了20个使用提出的半自动文本生成策略生成的文本。所提供的文本质量高,可以准确地描述静态和动态属性。通过对视频、文本和文本-视频相关性的全面统计分析,证明了CelebV-Text优于其他数据集。通过广泛的自我评估进一步展示了CelebV-Text的有效性和潜力。利用代表性方法构建了基准测试,以标准化人脸文本到视频生成任务的评估。