ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation

向作者提问

NEW

简介

我们提出了一个新的文本到视频（T2V）生成基准，名为ChronoMagic-Bench，用于评估T2V模型（如Sora和Lumiere）在延时视频生成中的时间和形态能力。与现有基准侧重于所生成视频的视觉质量和文本相关性不同，ChronoMagic-Bench侧重于模型生成具有显著形态变化和时间连贯性的延时视频的能力。该基准以自由形式文本查询的方式探测T2V模型的物理、生物和化学能力。为此，ChronoMagic-Bench引入了1,649个提示和真实世界视频作为参考，分为四类主要的延时视频：生物、人类创造、气象和物理现象，这些又进一步分为75个子类别。这种分类全面评估了模型处理各种复杂变换的能力。为了准确地将人类喜好与基准对齐，我们引入了两个新的自动度量标准，MTScore和CHScore，用于评估视频的形态变化属性和时间连贯性。MTScore衡量形态变化幅度，反映随时间的变化程度，而CHScore评估时间连贯性，确保生成的视频保持逻辑进展和连续性。基于ChronoMagic-Bench，我们对十个代表性的T2V模型进行了全面的手动评估，揭示了它们在不同提示类别下的优缺点，并提供了一个全面的评估框架，解决了视频生成研究中的当前差距。此外，我们创建了一个大规模的ChronoMagic-Pro数据集，包含460k对720p延时视频和详细标题，确保具有高物理相关性和大形态变化幅度。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

ChronoMagic-Bench：论文旨在提出一个新的基准测试，ChronoMagic-Bench，以评估文本到视频（T2V）模型在时间流逝视频生成中的时间和变形能力。
关键思路

ChronoMagic-Bench基于1,649个提示和真实世界视频作为参考，涵盖了四种主要类型的时间流逝视频：生物学，人类创造，气象和物理现象，进一步分为75个子类别，全面评估了模型处理各种复杂转换的能力。为了准确地对齐人类偏好和基准测试，引入了两个新的自动指标，MTScore和CHScore，用于评估视频的变形属性和时间连贯性。
其它亮点

论文通过对十个代表性的T2V模型进行全面的手动评估，揭示了它们在不同类别提示下的优缺点，并提供了一个全面的评估框架，解决了当前视频生成研究中存在的差距。此外，创建了一个大规模的ChronoMagic-Pro数据集，包含460k对720p时间流逝视频和详细的标题，确保高物理相关性和大变形振幅。
相关研究

最近的相关研究包括：《Generative Models for Effective ML》、《A Survey of Video Generation》、《Text-to-Video Generation for Multi-Concept Videos》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问