mHuBERT-147: A Compact Multilingual HuBERT Model

2024年06月10日
  • 简介
    我们呈现了mHuBERT-147,这是第一个通用的大规模多语言HuBERT语音表示模型,它是在90000小时的清洁、开放授权数据上训练的。为了扩大多次迭代的HuBERT方法,我们使用基于faiss的聚类,实现了比原始方法快5.2倍的标签分配。我们还应用了一种新的多语言批量上采样策略,利用语言和数据集的多样性。经过3次训练迭代,我们紧凑的95M参数mHuBERT-147的性能优于训练数据明显更多的更大模型。我们在ML-SUPERB 10分钟和1小时排行榜上排名第二和第一,在3个任务中达到了SOTA得分。在ASR/LID任务中,我们的模型始终优于XLS-R(300M参数;436K小时),并展示了与更大的MMS(1B参数;491K小时)相当的强大竞争力。我们的发现表明,mHuBERT-147是一个有前途的多语言语音任务模型,提供了高性能和参数效率之间前所未有的平衡。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在提出一种多语言语音表示模型mHuBERT-147,解决多语言语音任务中高性能和参数效率的平衡问题。
  • 关键思路
    论文提出了一种基于faiss聚类和多语言批量上采样策略的多次迭代HuBERT方法,训练出了一个高性能且参数较小的mHuBERT-147模型。
  • 其它亮点
    mHuBERT-147在多语言语音任务中表现优异,取得了多项最优成绩,且参数量较小;论文还开源了数据集和代码,为后续研究提供了便利。
  • 相关研究
    最近的相关研究包括XLS-R和MMS模型的研究,以及ML-SUPERB任务的其他参赛论文,如《Multi-Task Learning for Low-Resource Speech Recognition》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问