- 简介近年来,视频生成技术取得了巨大进展。然而,自动视频评估指标的发展明显滞后。目前没有任何一种现有的指标能够可靠地对生成的视频进行评分。主要障碍是缺乏大规模的人工注释数据集。本文提出了VideoFeedback数据集,这是第一个包含人工提供的多方面评分的大规模数据集,共包含来自11种现有视频生成模型的37.6K个合成视频。我们基于VideoFeedback训练了VideoScore(从Mantis初始化),以实现自动视频质量评估。实验表明,VideoScore在VideoFeedback-test上与人类的Spearman相关性可以达到77.1,比以前最好的指标高约50个点。对于其他保留的EvalCrafter、GenAI-Bench和VBench的结果表明,与其他指标相比,VideoScore始终与人类评委的相关性更高。由于这些结果,我们认为VideoScore可以作为人类评分者的一个很好的代理,用于(1)评估不同的视频模型以跟踪进展,(2)在人类反馈强化学习(RLHF)中模拟细粒度的人类反馈,以改进当前的视频生成模型。
-
- 图表
- 解决问题解决视频生成模型评价指标不足的问题,提供一个大规模的人工标注数据集,并使用该数据集训练出一个新的自动评价指标。
- 关键思路使用VideoFeedback数据集,训练出一个新的自动评价指标VideoScore,该指标能够在多个数据集上与人类评价高度相关,并且能够用于评估不同的视频生成模型。
- 其它亮点论文提供了一个大规模的人工标注数据集VideoFeedback,并且使用该数据集训练出了一个新的自动评价指标VideoScore。实验结果表明,VideoScore能够在多个数据集上与人类评价高度相关,比其他评价指标表现更好。这个工作对于跟踪视频生成模型的进展以及在强化学习中使用人类反馈都有很大的意义。
- 相关研究包括但不限于:GAN评价指标,视频质量评价指标,以及强化学习中使用人类反馈的研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流