Synchformer: Efficient Synchronization from Sparse Cues

2024年01月29日
  • 简介
    我们的目标是实现音视频同步,特别是针对“野外”视频,如YouTube上的视频,其中同步线索可能很少。我们的贡献包括一种新颖的音视频同步模型,以及通过多模式分段对比预训练将特征提取与同步建模分离的训练。这种方法在密集和稀疏设置下均实现了最先进的性能。我们还将同步模型训练扩展到AudioSet这个百万级的“野外”数据集,探索可解释性的证据归因技术,并探索同步模型的新能力:音视频同步能力。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决音视频同步问题,特别是在“野外”视频(如YouTube上的视频)中同步线索很少的情况下。论文提出了一种新颖的音视频同步模型,并通过多模态段级对比预训练将特征提取与同步建模解耦。该方法在密集和稀疏设置下均实现了最先进的性能。
  • 关键思路
    该论文的关键思路是将特征提取与同步建模解耦,通过多模态段级对比预训练来实现。这种方法在音视频同步领域取得了最先进的性能。
  • 其它亮点
    该论文的亮点包括:1)提出了一种新颖的音视频同步模型,实现了最先进的性能;2)将特征提取与同步建模解耦,通过多模态段级对比预训练来实现;3)将同步模型的训练扩展到AudioSet数据集,探索了证据归因技术以实现可解释性;4)探索了同步模型的新功能:音视频同步性。
  • 相关研究
    在音视频同步领域,还有一些相关的研究,例如“Audio-Visual Event Localization in Unconstrained Videos”(CVPR 2018)、“Audio-Visual Scene-Aware Dialog”(EMNLP 2018)等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问