Less is More: Accurate Speech Recognition & Translation without Web-Scale Data

2024年06月28日
  • 简介
    最近语音识别和翻译的进展依赖于数十万小时的互联网语音数据。我们认为,在不依赖于网络规模数据的情况下,可以达到最先进的准确性。Canary - 多语言ASR和语音翻译模型,在英语、法语、西班牙语和德语等语言上表现优于当前最先进的模型 - Whisper、OWSM和Seamless-M4T,而且所用数据量比这些模型少一个数量级。三个关键因素使得这种数据高效的模型成为可能:(1)基于FastConformer的注意力编码器-解码器架构;(2)使用机器翻译生成的合成数据进行训练;(3)先进的训练技术:数据平衡、动态数据混合、动态分桶和抗噪微调。该模型、权重和训练代码将被开源。
  • 图表
  • 解决问题
    本论文旨在探讨如何在使用的数据量较少的情况下,实现多语种语音识别和翻译的高准确度。
  • 关键思路
    通过使用基于FastConformer的注意力编码器-解码器架构、机器翻译生成的合成数据以及数据平衡、动态数据混合、动态分桶和噪声鲁棒微调等先进的训练技术,实现了数据效率高、准确度高的Canary多语种ASR和语音翻译模型。
  • 其它亮点
    Canary模型在英语、法语、西班牙语和德语等多种语言上均优于目前的最先进模型,且使用的数据量比这些模型少一个数量级。该论文还开源了模型、权重和训练代码。
  • 相关研究
    在这个领域中,一些相关的研究包括Whisper、OWSM和Seamless-M4T等模型。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论