Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization

2024年03月05日
  • 简介
    本文介绍了一种新的半监督学习框架,名为Dual Mean-Teacher (DMT),用于音视频源定位(Audio-Visual Source Localization,AVSL),旨在在给定配对音频剪辑的情况下,在视频帧内定位声音对象。现有的方法主要依赖于音频-视觉对应的自监督对比学习。这些方法没有任何边界框注释,因此在精确定位尤其是小物体时很难实现,并且会出现模糊的边界和误报。此外,简单的半监督方法在充分利用丰富的未标记数据方面效果不佳。具体来说,DMT由两个师生结构组成,通过两个预先训练的教师模型过滤噪声样本,然后通过交集生成高质量的伪标签。DMT充分利用了标记和未标记数据,并提出了一个无偏的框架,使其在Flickr-SoundNet和VGG-Sound Source上实现了90.4%和48.8%的CIoU,仅使用3%的位置注释,相对于自监督和半监督方法,分别提高了8.9%,9.6%和4.6%,6.4%。此外,我们还将该框架扩展到一些现有的AVSL方法,并持续提高其性能。
  • 图表
  • 解决问题
    本文旨在解决Audio-Visual Source Localization(AVSL)中的精确定位问题,尤其是对于小物体的定位,同时充分利用未标记数据的信息。
  • 关键思路
    本文提出了一种新的半监督学习框架,即Dual Mean-Teacher(DMT),通过两个师生结构来解决确认偏差问题,充分利用有限的标记数据和丰富的未标记数据,并通过两个预训练的教师来过滤噪声样本和生成高质量的伪标签。
  • 其它亮点
    本文提出的DMT方法在Flickr-SoundNet和VGG-Sound Source数据集上分别获得了90.4%和48.8%的CIoU,相比于当前最先进的方法,分别提高了8.9%、9.6%和4.6%、6.4%,仅使用了3%的位置注释。此外,本文还将DMT方法扩展到了一些现有的AVSL方法,并提高了它们的性能。
  • 相关研究
    在这个领域中,最近的相关研究包括:1. Self-Supervised Audio-Visual Object Tracking with Temporal Consistency(ICCV2021);2. Audio-Visual Object Localization with Self-Supervised Spatio-Temporal Learning(CVPR2021);3. Learning Audio-Visual Correspondence from Co-Speech Signals for Speaker-Following(CVPR2020)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论