- 简介我们的目标是实现音视频同步,特别是针对“野外”视频,如YouTube上的视频,其中同步线索可能很少。我们的贡献包括一种新颖的音视频同步模型,以及通过多模式分段对比预训练将特征提取与同步建模分离的训练。这种方法在密集和稀疏设置下均实现了最先进的性能。我们还将同步模型训练扩展到AudioSet这个百万级的“野外”数据集,探索可解释性的证据归因技术,并探索同步模型的新能力:音视频同步能力。
-
- 图表
- 解决问题本论文旨在解决音视频同步问题,特别是在“野外”视频(如YouTube上的视频)中同步线索很少的情况下。论文提出了一种新颖的音视频同步模型,并通过多模态段级对比预训练将特征提取与同步建模解耦。该方法在密集和稀疏设置下均实现了最先进的性能。
- 关键思路该论文的关键思路是将特征提取与同步建模解耦,通过多模态段级对比预训练来实现。这种方法在音视频同步领域取得了最先进的性能。
- 其它亮点该论文的亮点包括:1)提出了一种新颖的音视频同步模型,实现了最先进的性能;2)将特征提取与同步建模解耦,通过多模态段级对比预训练来实现;3)将同步模型的训练扩展到AudioSet数据集,探索了证据归因技术以实现可解释性;4)探索了同步模型的新功能:音视频同步性。
- 在音视频同步领域,还有一些相关的研究,例如“Audio-Visual Event Localization in Unconstrained Videos”(CVPR 2018)、“Audio-Visual Scene-Aware Dialog”(EMNLP 2018)等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流