MantisScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation

2024年06月21日
  • 简介
    近年来,视频生成技术取得了巨大进展。然而,自动视频评估指标的发展明显滞后。现有的指标都无法可靠地对生成的视频进行评分。主要障碍是缺乏大规模的人工注释数据集。本文发布了VideoFeedback数据集,这是第一个包含人工提供的多方面评分的大规模数据集,共包含11种现有视频生成模型的37.6K个合成视频。我们基于VideoFeedback训练了MantisScore(基于Mantis初始化),以实现自动视频质量评估。实验表明,MantisScore在VideoFeedback-test上与人类的Spearman相关系数可以达到77.1,比之前最佳指标高出约50个点。在其他保留的EvalCrafter、GenAI-Bench和VBench上的进一步结果表明,MantisScore与人类评审的相关性始终比其他指标高得多。由于这些结果,我们相信MantisScore可以作为人工评分者的良好代理,用于(1)评估不同的视频模型以跟踪进展,(2)在强化学习中模拟细粒度的人类反馈,以改进当前的视频生成模型。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决视频生成领域中缺乏可靠的自动化视频质量评估指标的问题,提出了基于大规模人工注释数据集的MantisScore评估指标,并验证其有效性。
  • 关键思路
    论文的关键思路是基于大规模人工注释数据集,训练出能够自动评估视频质量的MantisScore评估指标,并且证明其与人工评估者的评分具有高度相关性。
  • 其它亮点
    论文使用了自己构建的大规模数据集VideoFeedback,并且通过实验验证了MantisScore评估指标的有效性,与其他指标相比具有更高的相关性。此外,论文还探讨了MantisScore在强化学习中的应用。
  • 相关研究
    近期相关研究包括《Towards Automated Video Quality Assessment: A Survey》、《Video Quality Assessment: A Review of Recent Advances in Techniques and Methods》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问