U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF

2024年04月25日
  • 简介
    规模扩大了自然语言处理的新领域,但代价高昂。作为回应,通过学习仅在训练和推断中激活参数的子集,混合专家模型(MoE)被提出作为更大更强大的语言模型的节能路径,这种转向新一代基础模型的趋势正在增强,特别是在自动语音识别(ASR)领域。最近将MoE纳入ASR模型的研究具有复杂的设计,如通过补充嵌入网络路由帧、提高专家的多语言能力以及利用专用辅助损失来实现专家负载平衡或特定语言处理。我们发现,精细的设计并非必要,而将MoE层简单地替换为所有前馈网络(FFN)层对于ASR任务是有竞争力的。更具体地说,我们在一个大规模的内部数据集(160k小时)上对我们提出的模型进行基准测试,结果表明我们可以将基线Conformer(Dense-225M)扩展到其MoE对应物(MoE-1B),并在保持Dense-225M级别的实时因子(RTF)的同时实现Dense-1B级别的词错误率(WER)。此外,通过应用统一的双向注意力解码器(U2 ++)的2-pass框架,我们在单个MoE模型中实现了流式和非流式解码模式,我们称之为U2 ++ MoE。我们希望我们的研究可以促进扩展语音基础模型的研究,而不牺牲部署效率。
  • 图表
  • 解决问题
    论文旨在通过使用Mixture-of-Experts(MoE)层替换所有前馈网络(FFN)层,实现在不降低部署效率的情况下扩展语音基础模型。更具体地说,论文探讨了如何在自动语音识别(ASR)任务中使用MoE,实现与Dense-1B级别的词错误率(WER)相当的性能,同时保持Dense-225M级别的实时因子(RTF)。
  • 关键思路
    论文的关键思路是使用Mixture-of-Experts(MoE)层替换所有前馈网络(FFN)层,以实现扩展语音基础模型。通过这种方式,可以在不降低部署效率的情况下实现与更大、更强大的语言模型相当的性能。
  • 其它亮点
    论文的亮点在于使用简单的方法实现了MoE在ASR任务中的应用,并取得了与Dense-1B级别的词错误率(WER)相当的性能,同时保持Dense-225M级别的实时因子(RTF)。此外,论文还使用了Unified 2-pass framework with bidirectional attention decoders(U2++)来实现流式和非流式解码模式。论文使用了大规模的内部数据集进行了实验,并且开源了代码,这为后续的研究提供了便利。
  • 相关研究
    最近在语音识别领域中,也有其他研究使用了MoE来扩展语言模型。例如,一些研究使用了路由框架和嵌入网络来优化MoE的性能,另一些研究则使用了专门的辅助损失来平衡专家负载或处理特定语言。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论