悉尼大学发布CelebV-Text: 一个大规模的人脸文本视频数据集

【推荐理由】本文提出了CelebV-Text，一个大规模、多样化和高质量的人脸文本-视频数据集，以促进人脸文本到视频生成任务的研究。

Jianhui Yu, Hao Zhu, Liming Jiang, Chen Change Loy, Weidong Cai, Wayne Wu
University of Sydney & SenseTime Research & S-Lab & Nanyang Technological University & Shanghai AI Laboratory

【论文链接】https://arxiv.org/pdf/2303.14717.pdf

【项目链接】https://celebv-text.github.io/

【摘要】文本驱动的生成模型在视频生成和编辑领域得到了快速发展。然而，由于缺乏一个包含高质量视频和高度相关文本的适当数据集，以人脸为中心的文本到视频生成仍然是一个挑战。本文提出了CelebV-Text，一个大规模、多样化和高质量的人脸文本-视频数据集，以促进人脸文本到视频生成任务的研究。CelebV-Text包括70,000个野外面部视频剪辑，具有多样化的视觉内容，每个剪辑都配对了20个使用提出的半自动文本生成策略生成的文本。所提供的文本质量高，可以准确地描述静态和动态属性。通过对视频、文本和文本-视频相关性的全面统计分析，证明了CelebV-Text优于其他数据集。通过广泛的自我评估进一步展示了CelebV-Text的有效性和潜力。利用代表性方法构建了基准测试，以标准化人脸文本到视频生成任务的评估。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

悉尼大学发布CelebV-Text: 一个大规模的人脸文本视频数据集

评论列表

评论