Synchformer: Efficient Synchronization from Sparse Cues

向作者提问

NEW

简介

我们的目标是实现音视频同步，特别是针对“野外”视频，如YouTube上的视频，其中同步线索可能很少。我们的贡献包括一种新颖的音视频同步模型，以及通过多模式分段对比预训练将特征提取与同步建模分离的训练。这种方法在密集和稀疏设置下均实现了最先进的性能。我们还将同步模型训练扩展到AudioSet这个百万级的“野外”数据集，探索可解释性的证据归因技术，并探索同步模型的新能力：音视频同步能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决音视频同步问题，特别是在“野外”视频（如YouTube上的视频）中同步线索很少的情况下。论文提出了一种新颖的音视频同步模型，并通过多模态段级对比预训练将特征提取与同步建模解耦。该方法在密集和稀疏设置下均实现了最先进的性能。
关键思路

该论文的关键思路是将特征提取与同步建模解耦，通过多模态段级对比预训练来实现。这种方法在音视频同步领域取得了最先进的性能。
其它亮点

该论文的亮点包括：1）提出了一种新颖的音视频同步模型，实现了最先进的性能；2）将特征提取与同步建模解耦，通过多模态段级对比预训练来实现；3）将同步模型的训练扩展到AudioSet数据集，探索了证据归因技术以实现可解释性；4）探索了同步模型的新功能：音视频同步性。
相关研究

在音视频同步领域，还有一些相关的研究，例如“Audio-Visual Event Localization in Unconstrained Videos”（CVPR 2018）、“Audio-Visual Scene-Aware Dialog”（EMNLP 2018）等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问