- 简介我们呈现了mHuBERT-147,这是第一个通用的、大规模的、多语言的HuBERT语音表示模型,使用了90K小时的干净、开放许可的数据进行训练。为了扩大多次迭代的HuBERT方法,我们使用基于faiss的聚类方法,实现了比原始方法快5.2倍的标签分配。我们还应用了一种新的多语言批处理上采样策略,利用了语言和数据集的多样性。经过3次训练迭代,我们紧凑的95M参数mHuBERT-147在表现上优于训练数据明显更多的更大模型。我们在ML-SUPERB 10分钟和1小时排行榜上分别排名第二和第一,在3个任务中拥有SOTA分数。在ASR/LID任务中,我们的模型始终超过XLS-R(300M参数;436K小时),并展示了与更大的MMS(1B参数;491K小时)相当的竞争力。我们的研究结果表明,mHuBERT-147是一个有前途的多语言语音任务模型,提供了高性能和参数效率之间前所未有的平衡。
- 图表
- 解决问题本篇论文旨在提出一种新的通用多语言语音表示模型,解决多语言语音识别和语音识别任务中的性能和参数效率之间的平衡问题。
- 关键思路通过使用faiss-based clustering和新的多语言批量上采样策略,构建了一个经过3次训练迭代的紧凑型95M参数的mHuBERT-147模型,该模型在多语言语音任务中表现出卓越的性能。
- 其它亮点论文使用了90K小时的干净、开放许可的数据进行训练,并在ML-SUPERB 10min和1h排行榜中分别排名第二和第一。该模型在ASR/LID任务中表现出色,与XLS-R和MMS相比,具有更高的性能和更高的参数效率。论文还开源了代码。
- 近期的相关研究包括XLS-R和MMS等模型的研究。
沙发等你来抢
去评论
评论
沙发等你来抢