Towards Robust Speech Representation Learning for Thousands of Languages

2024年06月30日
  • 简介
    自我监督学习(SSL)通过减少标记数据的需求,帮助扩展了语音技术的应用语言,但是模型仍然远远不能支持全球7000多种语言。我们提出了XEUS,一种跨语言编码器,用于通用语音,在4057种语言的100多万小时数据上进行训练,将SSL模型的语言覆盖范围扩大了4倍。我们将现有公开可访问的语料库中的100多万小时语音与一个包含4057种语言的7400多小时新创建的语料库相结合,将其公开发布。为了处理多语言语音数据的各种条件,我们使用了一种新颖的去混响目标来增加鲁棒性,将典型的SSL掩码预测方法进行了增强。我们在几个基准测试中评估了XEUS,并展示了它在各种任务上始终优于或与最先进的SSL模型达到可比的结果。XEUS在ML-SUPERB基准测试中创造了新的最先进水平:尽管参数或预训练数据较少,但它比MMS 1B和w2v-BERT 2.0 v2分别高出0.8%和4.4%。检查点、代码和数据可以在https://www.wavlab.org/activities/2024/xeus/上找到。
  • 图表
  • 解决问题
    论文旨在通过自监督学习(SSL)扩展语音技术到更多的语言,以减少标记数据的需求。同时,该论文提出了一种新的跨语言编码器XUES,旨在通过结合现有的公开可访问的语音语料库和一个新创建的包含4057种语言的语料库,将语言覆盖范围扩大4倍。
  • 关键思路
    论文提出了一种新的跨语言编码器XUES,通过添加一种新颖的去混响目标,增加了鲁棒性,从而处理多语言语音数据的多样化条件。
  • 其它亮点
    论文通过使用1百万小时的语音数据和一种新创建的包含4057种语言的语料库,来训练XUES,该语料库将被公开发布。研究人员通过将典型的SSL掩码预测方法与一种新颖的去混响目标相结合,增加了鲁棒性。实验结果表明,XUES在多项基准测试中表现出色,优于或与当前最先进的SSL模型相当。论文还提供了检查点、代码和数据。
  • 相关研究
    最近的相关研究包括MMS 1B和w2v-BERT 2.0 v2等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论