ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation

2024年06月26日
  • 简介
    我们提出了一个新的文本到视频(T2V)生成基准,名为ChronoMagic-Bench,用于评估T2V模型(如Sora和Lumiere)在延时视频生成中的时间和形态能力。与现有基准侧重于所生成视频的视觉质量和文本相关性不同,ChronoMagic-Bench侧重于模型生成具有显著形态变化和时间连贯性的延时视频的能力。该基准以自由形式文本查询的方式探测T2V模型的物理、生物和化学能力。为此,ChronoMagic-Bench引入了1,649个提示和真实世界视频作为参考,分为四类主要的延时视频:生物、人类创造、气象和物理现象,这些又进一步分为75个子类别。这种分类全面评估了模型处理各种复杂变换的能力。为了准确地将人类喜好与基准对齐,我们引入了两个新的自动度量标准,MTScore和CHScore,用于评估视频的形态变化属性和时间连贯性。MTScore衡量形态变化幅度,反映随时间的变化程度,而CHScore评估时间连贯性,确保生成的视频保持逻辑进展和连续性。基于ChronoMagic-Bench,我们对十个代表性的T2V模型进行了全面的手动评估,揭示了它们在不同提示类别下的优缺点,并提供了一个全面的评估框架,解决了视频生成研究中的当前差距。此外,我们创建了一个大规模的ChronoMagic-Pro数据集,包含460k对720p延时视频和详细标题,确保具有高物理相关性和大形态变化幅度。
  • 作者讲解
  • 图表
  • 解决问题
    ChronoMagic-Bench:论文旨在提出一个新的基准测试,ChronoMagic-Bench,以评估文本到视频(T2V)模型在时间流逝视频生成中的时间和变形能力。
  • 关键思路
    ChronoMagic-Bench基于1,649个提示和真实世界视频作为参考,涵盖了四种主要类型的时间流逝视频:生物学,人类创造,气象和物理现象,进一步分为75个子类别,全面评估了模型处理各种复杂转换的能力。为了准确地对齐人类偏好和基准测试,引入了两个新的自动指标,MTScore和CHScore,用于评估视频的变形属性和时间连贯性。
  • 其它亮点
    论文通过对十个代表性的T2V模型进行全面的手动评估,揭示了它们在不同类别提示下的优缺点,并提供了一个全面的评估框架,解决了当前视频生成研究中存在的差距。此外,创建了一个大规模的ChronoMagic-Pro数据集,包含460k对720p时间流逝视频和详细的标题,确保高物理相关性和大变形振幅。
  • 相关研究
    最近的相关研究包括:《Generative Models for Effective ML》、《A Survey of Video Generation》、《Text-to-Video Generation for Multi-Concept Videos》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问