Enhancing Real-World Active Speaker Detection with Multi-Modal Extraction Pre-Training

2024年04月01日
  • 简介
    音视频活动扬声器检测(AV-ASD)旨在识别在一个或多个人的场景中哪个可见的面孔在说话。大多数现有的AV-ASD方法优先考虑捕捉语音唇形对应关系。然而,在应对真实世界AV-ASD场景中的挑战时存在明显的差距。由于存在低质量嘈杂视频的情况,没有具有选择性听力能力的AV-ASD系统无法有效地过滤混合音频输入中的干扰性语音成分。本文提出了一种名为“MuSED”的多模态扬声器提取到检测框架,它是通过音视频目标扬声器提取进行预训练以学习去噪能力,然后通过AV-ASD任务进行微调。同时,为了更好地捕捉多模态信息并处理诸如缺失模态等真实世界问题,MuSED直接在时间域上建模,并集成了多模态加减增强策略。我们的实验表明,MuSED显著优于最先进的AV-ASD方法,并分别在AVA-ActiveSpeaker数据集上实现了95.6%的mAP,在ASW数据集上实现了98.3%的AP,在Columbia AV-ASD数据集上实现了97.9%的F1。我们将及时公开发布代码。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决音视频活动扬声器检测(AV-ASD)中存在的实际问题,即如何从低质量嘈杂视频中准确地过滤出目标说话人的声音。
  • 关键思路
    该论文提出了一种名为MuSED的多模态扬声器提取-检测框架,该框架通过预先训练音视频目标扬声器提取以学习去噪能力,然后再进行AV-ASD任务的微调。同时,为了更好地捕捉多模态信息并处理现实世界中的问题,MuSED直接在时间域上建模,并集成了多模态加减增强策略。
  • 其它亮点
    该论文的实验结果表明,MuSED在AV-ASD任务中取得了显著的性能提升,分别在AVA-ActiveSpeaker数据集上达到了95.6%的mAP,在ASW数据集上达到了98.3%的AP,在Columbia AV-ASD数据集上达到了97.9%的F1。该论文将在适当的时候公开代码。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》、《Audio-Visual Scene-Aware Dialog》、《Audio-Visual Event Localization in Unconstrained Videos》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问