- 简介最近在音视频语音识别(AVSR)方面的进展取得了前所未有的成就,提高了这种系统在恶劣、嘈杂环境下的鲁棒性。在大多数情况下,这个任务是通过设计由两个独立编码器组成的模型来解决的,每个编码器专门处理一个特定的模态。然而,虽然最近的研究已经探索了统一的音视频编码器,但确定最佳的跨模态架构仍然是一个持续的挑战。此外,这种方法通常依赖于包含大量参数和高计算成本的训练过程的模型。在本文中,我们旨在通过引入一种新的音视频框架来弥合这一研究差距。我们提出的方法在设计参数高效的AVSR系统方面,利用了Branchformer等编码器架构所提供的灵活性和可解释性,据我们所知,这是第一次尝试。更准确地说,所提出的框架包括两个步骤:首先,估计音频和视频单独的系统,然后根据模态特定模型提供的层级分数设计定制的音视频统一编码器。在英语和西班牙语AVSR基准测试上进行了广泛的实验,涵盖了多种数据条件和场景,证明了我们提出的方法的有效性。结果反映了我们定制的AVSR系统能够达到最先进的识别率,同时显著降低了模型复杂度。代码和预训练模型可在https://github.com/david-gimeno/tailored-avsr上获得。
- 图表
- 解决问题本论文旨在介绍一种新的音视频语音识别框架,通过使用分支形式编码器来设计参数高效的音视频统一编码器,以提高语音识别的鲁棒性和准确性。
- 关键思路论文提出的方法包括两个步骤:首先估计音频和视频单独的模型,然后根据模态特定模型提供的层级分支分数设计定制的音视频统一编码器。
- 其它亮点论文使用英语和西班牙语的音视频数据集进行了广泛的实验,证明了所提出的方法的有效性。与当前领域中的主流方法相比,该方法显著降低了模型复杂度。
- 最近的相关研究包括使用两个独立编码器的模型来处理音视频语音识别任务,以及探索使用统一音视频编码器的方法,但如何确定最佳的跨模态架构仍然是一个挑战。
沙发等你来抢
去评论
评论
沙发等你来抢