Enhancing Real-World Active Speaker Detection with Multi-Modal Extraction Pre-Training

向作者提问

NEW

简介

音视频活动扬声器检测（AV-ASD）旨在识别在一个或多个人的场景中哪个可见的面孔在说话。大多数现有的AV-ASD方法优先考虑捕捉语音唇形对应关系。然而，在应对真实世界AV-ASD场景中的挑战时存在明显的差距。由于存在低质量嘈杂视频的情况，没有具有选择性听力能力的AV-ASD系统无法有效地过滤混合音频输入中的干扰性语音成分。本文提出了一种名为“MuSED”的多模态扬声器提取到检测框架，它是通过音视频目标扬声器提取进行预训练以学习去噪能力，然后通过AV-ASD任务进行微调。同时，为了更好地捕捉多模态信息并处理诸如缺失模态等真实世界问题，MuSED直接在时间域上建模，并集成了多模态加减增强策略。我们的实验表明，MuSED显著优于最先进的AV-ASD方法，并分别在AVA-ActiveSpeaker数据集上实现了95.6％的mAP，在ASW数据集上实现了98.3％的AP，在Columbia AV-ASD数据集上实现了97.9％的F1。我们将及时公开发布代码。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决音视频活动扬声器检测（AV-ASD）中存在的实际问题，即如何从低质量嘈杂视频中准确地过滤出目标说话人的声音。
关键思路

该论文提出了一种名为MuSED的多模态扬声器提取-检测框架，该框架通过预先训练音视频目标扬声器提取以学习去噪能力，然后再进行AV-ASD任务的微调。同时，为了更好地捕捉多模态信息并处理现实世界中的问题，MuSED直接在时间域上建模，并集成了多模态加减增强策略。
其它亮点

该论文的实验结果表明，MuSED在AV-ASD任务中取得了显著的性能提升，分别在AVA-ActiveSpeaker数据集上达到了95.6％的mAP，在ASW数据集上达到了98.3％的AP，在Columbia AV-ASD数据集上达到了97.9％的F1。该论文将在适当的时候公开代码。
相关研究

在这个领域中，最近的相关研究包括：《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》、《Audio-Visual Scene-Aware Dialog》、《Audio-Visual Event Localization in Unconstrained Videos》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问