CI-VID: A Coherent Interleaved Text-Video Dataset

2025年07月02日
  • 简介
    最近,文本到视频(Text-to-Video, T2V)生成技术受到了广泛关注,促使多个高质量数据集相继问世,推动了该领域的发展。然而,目前的公开数据集主要由孤立的文本-视频(Text-Video, T-V)对组成,难以支持连贯多片段视频序列的建模。为了解决这一局限性,我们提出了 CI-VID 数据集,将生成任务从孤立的文本到视频(T2V)扩展到文本与视频到视频(TV2V)生成,使模型能够生成内容连贯、包含多个场景的视频序列。CI-VID 包含超过 340,000 个样本,每个样本都包含一个结构清晰的视频片段序列,并配有文字描述,这些描述不仅捕捉了每个片段的具体内容,还涵盖了片段之间的过渡关系,从而实现视觉和文本层面的有根据生成。为进一步验证 CI-VID 的有效性,我们设计了一个全面的、多维度的基准测试体系,包括人工评估、基于视觉语言模型(VLM)的评估以及基于相似度的指标。实验结果表明,在 CI-VID 上训练的模型在生成视频序列时,在准确性和内容一致性方面均有显著提升。这使得创作具有流畅视觉过渡和强时间连贯性的叙事型内容成为可能,也凸显了 CI-VID 数据集的高质量与实用价值。我们已在以下地址公开发布了 CI-VID 数据集及相关数据构建与评估代码:https://github.com/ymju-BAAI/CI-VID
  • 作者讲解
  • 图表
  • 解决问题
    现有的文本到视频(T2V)生成数据集主要由孤立的文本-视频对组成,无法支持连贯多片段视频序列的建模。这限制了模型在生成故事驱动、具有时间一致性和视觉流畅过渡的视频内容方面的能力。
  • 关键思路
    论文提出CI-VID数据集,超越传统的孤立文本到视频生成范式,引入文本与视频联合输入到视频生成(TV2V)的新任务设定,以支持生成具有语义连贯性的多场景视频序列。该数据集不仅包含每个视频片段的独立描述,还提供跨片段的过渡性文本描述,从而实现更高质量的时间一致性生成。
  • 其它亮点
    1. CI-VID包含超过340,000个样本,是目前首个支持TV2V生成范式的大型数据集 2. 每个样本包括多个连贯的视频片段和对应的文本描述(含片段内内容和片段间过渡) 3. 设计了一个涵盖人类评估、视觉语言模型评估和相似度指标的多维基准 4. 实验验证了基于CI-VID训练的模型在准确性与内容一致性上的显著提升 5. 作者已开源数据集、构建代码与评估工具,有助于后续研究与应用
  • 相关研究
    1. Make-A-Video: Generating Long Video from a Single Image with Text-to-Image Priors 2. VideoLDM: Large Diffusion Models for Video-to-Video Generation 3. HowTo100M: Efficiently Mining How-To Videos from the Web 4. TAP: Text-Assisted Prompt Learning for Video Generation 5. Align before Generate: Video Diffusion Models with Pretrained Image Encoders
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问