- 简介音视频目标语音提取(AV-TSE)是机器人和许多音视频应用中的一种关键技术。其中一个挑战是如何在过程中有效利用音视频同步信息。AV-HuBERT是一种有用的用于唇语识别的预训练模型,但尚未被AV-TSE采用。本文旨在探索将预训练的AV-HuBERT集成到AV-TSE系统中的方法。我们有充分的理由期望性能得到改进。为了从模态内和模态间的相关性中受益,我们还提出了一种新颖的Mask-And-Recover(MAR)自监督学习策略。在VoxCeleb2数据集上的实验结果表明,我们提出的模型在主客观指标上均优于基线,这表明预训练的AV-HuBERT模型为目标语音提取提供了更多信息丰富的视觉线索。此外,通过比较研究,我们证实了所提出的Mask-And-Recover策略的显著有效性。
- 图表
- 解决问题论文旨在探索如何将预训练的AV-HuBERT模型集成到AV-TSE系统中,以提高音视频目标语音提取的性能。
- 关键思路论文提出了一种新颖的自监督学习策略Mask-And-Recover(MAR),以利用跨模态和内部模态之间的相关性,同时结合预训练的AV-HuBERT模型。这种方法能够有效地利用音视频同步信息。
- 其它亮点论文在VoxCeleb2数据集上进行了实验,结果表明,与基线相比,提出的模型在主观和客观指标上都有所提高。论文还提供了开源代码。
- 在相关研究中,最近的一些论文包括:'A Lip Reading Approach based on Convolutional Neural Networks','Audio-Visual Speech Enhancement using Multimodal Deep Convolutional Neural Networks'。
沙发等你来抢
去评论
评论
沙发等你来抢