Efficiently Train ASR Models that Memorize Less and Perform Better with Per-core Clipping

2024年06月04日
  • 简介
    梯度裁剪在训练大规模自动语音识别(ASR)模型中起着至关重要的作用。通常,它被应用于小批量梯度以防止梯度爆炸,并应用于单个样本梯度以减轻意外记忆的影响。本研究系统地调查了梯度裁剪的一种特定粒度,即每个核心的裁剪(PCC),在训练各种ASR模型时的影响。我们通过实验证明,PCC可以有效地减轻ASR模型中的意外记忆。令人惊讶的是,我们发现PCC对ASR性能指标产生积极影响,导致改善收敛速度和减少词错误率。为了避免调整PCC引入的额外超参数,我们进一步提出了一种新型变体,自适应每个核心裁剪(APCC),以实现简化优化。我们的发现强调了PCC作为一种用于稳健、注重隐私的ASR模型训练策略的多方面优点。
  • 图表
  • 解决问题
    本论文旨在研究梯度裁剪在大规模自动语音识别(ASR)模型训练中的作用,特别是针对单个核心的梯度裁剪(PCC)的影响。论文试图解决梯度爆炸和意外记忆等问题。
  • 关键思路
    论文提出了单个核心的梯度裁剪(PCC)的概念,可以有效地减轻ASR模型中的意外记忆问题,并且可以提高ASR性能指标,例如收敛速度和词错误率。此外,论文还提出了一种自适应单个核心裁剪(APCC)的变体,以优化裁剪的超参数。
  • 其它亮点
    论文通过实验验证了PCC和APCC的有效性,并探讨了它们对ASR性能的影响。实验使用了多个数据集,并且开源了代码。此外,论文还讨论了其他与ASR模型训练相关的问题,例如隐私问题。
  • 相关研究
    最近的相关研究包括“On the Variance of the Adaptive Learning Rate and Beyond”和“Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论