Evaluation of Text-to-Video Generation Models: A Dynamics Perspective

简介

综合且有建设性的评估协议在先进的文本到视频（T2V）生成模型的发展中起着重要作用。现有的评估协议主要关注时间一致性和内容连续性，但很大程度上忽略了视频内容的动态性。动态是衡量视频内容对文本提示的视觉生动性和真实性的重要维度。在本研究中，我们提出了一种有效的评估协议，称为DEVIL，它以动态维度为中心评估T2V模型。为此，我们建立了一个新的基准，包括充分反映多个动态等级的文本提示，并定义了一组与各种时间粒度相对应的动态分数，以全面评估每个生成的视频的动态性。基于新基准和动态分数，我们设计了三个指标来评估T2V模型：动态范围、动态可控性和基于动态的质量。实验表明，DEVIL与人类评分的皮尔逊相关系数超过90％，证明了它推进T2V生成模型的潜力。代码可在https://github.com/MingXiangL/DEVIL上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出一种有效的评估协议 DEVIL，以评估文本到视频生成模型的动态维度，解决现有评估协议忽略视频内容动态性的问题。
关键思路

通过建立新的基准数据集和定义一组动态分数来评估每个生成视频的动态性，设计三个指标来评估 T2V 模型的动态范围、动态可控性和基于动态的质量。
其它亮点

实验表明，DEVIL 与人类评分的皮尔逊相关系数超过 90％，具有推进 T2V 生成模型的潜力。代码已在 Github 上开源。
相关研究

相关论文：1. 'Temporal Generative Adversarial Networks for Action Segment Proposals'；2. 'Video Generation from Text'；3. 'Text-to-Video: Synthesis and Downstream Applications'

Evaluation of Text-to-Video Generation Models: A Dynamics Perspective

提问交流

提问交流