PEAVS: Perceptual Evaluation of Audio-Visual Synchrony Grounded in Viewers' Opinion Scores

2024年04月10日
  • 简介
    最近,音视频生成建模的进展得益于深度学习和数据丰富的基准的进步。然而,这种增长不仅归因于模型和基准。普遍接受的评估指标在推动该领域发展中也起着重要作用。虽然有许多可用于单独评估音频和视觉内容的指标,但缺乏提供视频中音视频同步的定量和可解释度量的指标。为了解决这一问题,我们首先创建了一个大规模的人工注释数据集(100多小时),代表了音视频内容中九种同步错误类型以及人类如何感知它们。然后,我们开发了PEAVS(感知评估音视频同步)分数,这是一种新颖的自动指标,具有5个等级的标度,用于评估音视频同步的质量。我们使用一个新生成的数据集验证了PEAVS,当与人类标签进行比较时,在集合级别和片段级别分别达到了0.79和0.54的Pearson相关系数。在我们的实验中,我们观察到相对增益50%,超过了基于Fr\'echet的音视频同步的自然扩展,证实了PEAVS在客观地建模视频中音视频同步的主观感知方面的有效性。
  • 作者讲解
  • 图表
  • 解决问题
    缺乏适用于评估“野外”视频中音频-视觉同步的定量和可解释的指标,论文旨在解决这个问题。
  • 关键思路
    论文创建了一个大规模的人类标注数据集,并开发了一种新的自动度量标准PEAVS(Perceptual Evaluation of Audio-Visual Synchrony)来评估音频-视觉同步质量。
  • 其它亮点
    论文使用新生成的数据集验证了PEAVS的有效性,并观察到相对于基于Fréchet的指标的50%的相对增益,证实了PEAVS在客观建模“野外”视频中主观感知的音频-视觉同步方面的功效。
  • 相关研究
    最近的相关研究包括:1)“Learning to Sync Audio to Visuals in Unconstrained Videos”;2)“A Large-Scale Study of YouTube Videos In-The-Wild for Audio-Visual Synchronization”;3)“Audio-Visual Event Localization in Unconstrained Videos with Self-Supervised Multimodal Alignment”等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问