- 简介高级视听语音识别(AVSR)系统对于缺失视频帧非常敏感,甚至表现比单模型还要差。虽然将dropout技术应用于视频模态可以增强对缺失帧的鲁棒性,但同时会在处理完整数据输入时导致性能损失。本文从模态偏差的角度探讨了这种对比现象,并揭示了dropout导致的对音频过度模态偏差是其根本原因。此外,我们提出了模态偏差假设(MBH)来系统地描述多模态系统中模态偏差与对缺失模态的鲁棒性之间的关系。基于这些发现,我们提出了一种新颖的多模态分布近似与知识蒸馏(MDA-KD)框架,以减少对音频模态的过度依赖,并同时维持性能和鲁棒性。最后,为了解决完全缺失模态的情况,我们采用适配器来动态切换决策策略。我们通过使用MISP2021和MISP2022数据集的一系列综合实验来评估和验证我们提出的方法的有效性。我们的代码可在https://github.com/dalision/ModalBiasAVSR上获得。
-
- 图表
- 解决问题本论文试图解决AVSR系统对于缺失视频帧的敏感性问题,以及应用dropout技术增强鲁棒性时可能导致的性能损失问题。
- 关键思路论文提出了模态偏差假设(MBH),并提出了一种新的多模态分布逼近与知识蒸馏框架(MDA-KD)来减少对音频模态的过度依赖,并同时保持性能和鲁棒性。
- 其它亮点本论文实验使用了MISP2021和MISP2022数据集,并提供了开源代码。值得进一步研究的是该框架在其他多模态任务中的适用性。
- 最近的相关研究包括“Multimodal Transformer for Unaligned Multimodal Language Sequences”和“Learning Multimodal Transformer for Unaligned Multimodal Language Sequences”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流