- 简介最近的研究在设计音视频语音分离的融合模块方面取得了显著进展。然而,它们主要集中在单一时间尺度的多模态融合上,没有使用选择性注意机制,这与大脑形成了鲜明对比。为了解决这个问题,我们提出了一种新的模型,称为Intra- and Inter-Attention Network (IIANet),它利用注意机制实现高效的音视频特征融合。IIANet由两种类型的注意块组成:内部注意块(IntraA)和互动注意块(InterA),其中InterA块分布在IIANet的顶部、中部和底部。受到人脑选择性关注不同时间尺度相关内容的方式的启发,这些块保持了学习模态特定特征的能力,并且能够从音视频特征中提取不同的语义。在三个标准的音视频分离基准测试(LRS2、LRS3和VoxCeleb2)上进行的全面实验表明,IIANet的有效性,优于先前的最先进方法,同时保持可比的推理时间。特别是,IIANet-fast的运行速度比CTCNet快40%,仅具有CTCNet MAC的7%,同时实现更好的分离质量,显示了注意机制在实现高效和有效的多模态融合方面的巨大潜力。
-
- 图表
- 解决问题本论文旨在解决音视频语音分离中多模态融合的问题,提出了一种新的模型IIANet,利用注意力机制进行高效的音视频特征融合。
- 关键思路IIANet模型包含两种注意力块:IntraA和InterA块,其中InterA块分布在IIANet的顶部、中部和底部。这些块通过模仿人类大脑在不同时间尺度上选择性关注相关内容的方式,保持学习模态特定特征的能力,并能从音视频特征中提取不同的语义信息。
- 其它亮点论文在三个标准音视频分离基准(LRS2、LRS3和VoxCeleb2)上进行了全面实验,证明了IIANet的有效性,优于以前的最先进方法,同时保持可比较的推理时间。特别是,IIANet-fast版本的MACs仅为CTCNet的7%,在CPU上比CTCNet快40%,同时实现更好的分离质量,显示了注意机制在高效和有效的多模态融合中的巨大潜力。
- 在这个领域中,最近的相关研究包括:Deep clustering、Deep attractor network、Conv-TasNet等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流