PEAVS: Perceptual Evaluation of Audio-Visual Synchrony Grounded in Viewers' Opinion Scores

简介

最近，音视频生成建模的进展得益于深度学习和数据丰富的基准的进步。然而，这种增长不仅归因于模型和基准。普遍接受的评估指标在推动该领域发展中也起着重要作用。虽然有许多可用于单独评估音频和视觉内容的指标，但缺乏提供视频中音视频同步的定量和可解释度量的指标。为了解决这一问题，我们首先创建了一个大规模的人工注释数据集（100多小时），代表了音视频内容中九种同步错误类型以及人类如何感知它们。然后，我们开发了PEAVS（感知评估音视频同步）分数，这是一种新颖的自动指标，具有5个等级的标度，用于评估音视频同步的质量。我们使用一个新生成的数据集验证了PEAVS，当与人类标签进行比较时，在集合级别和片段级别分别达到了0.79和0.54的Pearson相关系数。在我们的实验中，我们观察到相对增益50％，超过了基于Fr\'echet的音视频同步的自然扩展，证实了PEAVS在客观地建模视频中音视频同步的主观感知方面的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

缺乏适用于评估“野外”视频中音频-视觉同步的定量和可解释的指标，论文旨在解决这个问题。
关键思路

论文创建了一个大规模的人类标注数据集，并开发了一种新的自动度量标准PEAVS（Perceptual Evaluation of Audio-Visual Synchrony）来评估音频-视觉同步质量。
其它亮点

论文使用新生成的数据集验证了PEAVS的有效性，并观察到相对于基于Fréchet的指标的50％的相对增益，证实了PEAVS在客观建模“野外”视频中主观感知的音频-视觉同步方面的功效。
相关研究

最近的相关研究包括：1）“Learning to Sync Audio to Visuals in Unconstrained Videos”；2）“A Large-Scale Study of YouTube Videos In-The-Wild for Audio-Visual Synchronization”；3）“Audio-Visual Event Localization in Unconstrained Videos with Self-Supervised Multimodal Alignment”等。

PEAVS: Perceptual Evaluation of Audio-Visual Synchrony Grounded in Viewers' Opinion Scores

提问交流

提问交流