Continual Test-time Adaptation for End-to-end Speech Recognition on Noisy Speech

2024年06月16日
  • 简介
    深度学习的端到端自动语音识别(ASR)已经取得了重大进展,但在真实场景下,由于领域转移,它仍然在处理域外(OOD)样本时表现不佳。测试时间适应(TTA)方法通过在推理时使用测试样本来调整模型,解决了这个问题。然而,当前的ASR TTA方法主要集中在非连续TTA上,与连续TTA相比,这种方法限制了跨样本的知识学习。在这项工作中,我们提出了一个快慢TTA框架,用于ASR,它利用了连续和非连续TTA的优势。在这个框架内,我们引入了基于熵最小化的动态SUTA(DSUTA),这是一种ASR的连续TTA方法。为了增强DSUTA对时变数据的稳健性,我们提出了一种动态重置策略,它可以自动检测领域转移并重置模型,使其更有效地处理多领域数据。我们的方法在各种嘈杂的ASR数据集上表现出优越的性能,优于非连续和连续TTA基线,同时保持对领域变化的稳健性,而不需要领域边界信息。
  • 图表
  • 解决问题
    本文旨在解决自动语音识别(ASR)在现实场景中由于领域转移而在域外样本上表现不佳的问题。当前ASR TTA方法主要集中在非连续TTA上,而本文提出了一种Fast-slow TTA框架,结合了连续和非连续TTA的优点。
  • 关键思路
    本文提出了一种基于熵最小化的连续TTA方法Dynamic SUTA,同时提出了一种动态重置策略,可以自动检测领域转移并重置模型,从而使其更有效地处理多领域数据。
  • 其它亮点
    本文在各种嘈杂的ASR数据集上表现出优异的性能,优于非连续和连续TTA基线,同时在不需要领域边界信息的情况下保持对领域变化的鲁棒性。值得关注的是,本文提出的动态重置策略可以自适应地适应时间变化的数据,这是一个重要的亮点。此外,本文还提供了开源代码。
  • 相关研究
    最近在ASR领域中,还有一些相关的研究,例如《Advances in Joint CTC-Attention Based End-to-End Speech Recognition with a Deep CNN Encoder and RNN-LM》和《SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论