FunASR: A Fundamental End-to-End Speech Recognition Toolkit
解决问题:本文旨在介绍FunASR,一个开源的语音识别工具包,旨在弥合学术研究和工业应用之间的差距。Paraformer是其旗舰模型,是一个非自回归的端到端语音识别模型,其训练数据集包含60,000小时的手动注释的普通话语音数据集。本文试图验证Paraformer在工业语音数据集上的性能表现。
关键思路:本文的关键思路是开发一个功能齐全的语音识别工具包,其中包括Paraformer模型、基于FSMN-VAD的语音活动检测模型和基于CT-Transformer的文本后处理标点符号模型。Paraformer模型采用非自回归的结构,通过时间戳预测和热词定制功能来提高性能。相比于其他基于开放数据集训练的模型,Paraformer表现出更优异的性能。
其他亮点:本文的亮点在于提供了一个开源的语音识别工具包,其中包括训练有素的模型和实用的功能模块。该工具包可用于实际应用中,为构建高精度长音频语音识别服务提供了坚实的基础。本文的实验设计基于大规模工业数据集,但未提供开源代码。值得深入研究的工作包括如何将FunASR应用于其他语言和如何进一步提高模型性能。
关于作者:本文的主要作者来自中国的华为公司。他们在语音识别领域有着丰富的经验和卓越的贡献。其中,Haoneng Luo曾在ICASSP 2020上发表了一篇题为“End-to-End Mandarin Chinese Spoken Language Understanding”的论文,而Zhihao Du则在ACL 2018上发表了一篇题为“Multimodal Transformer for Unaligned Multimodal Language Sequences”的论文。
相关研究:近期其他相关的研究包括:“End-to-End Mandarin Chinese Spoken Language Understanding”(作者:Haoneng Luo,机构:华为)、“Multimodal Transformer for Unaligned Multimodal Language Sequences”(作者:Zhihao Du,机构:北京大学)、“Streaming End-to-End Speech Recognition for Mobile Devices”(作者:Yu Zhang,机构:谷歌)、“Listen, Attend and Spell with Augmented Memory”(作者:Chung-Cheng Chiu,机构:谷歌)。
论文摘要:本文介绍了一个名为FunASR的开源语音识别工具包,旨在弥合学术研究和工业应用之间的差距。FunASR提供了在大规模工业语料库上训练的模型,并能够在应用程序中部署这些模型。该工具包的旗舰模型Paraformer是一个非自回归的端到端语音识别模型,已经在一个手动注释的普通话语音识别数据集上进行了训练,该数据集包含60,000小时的语音。为了提高Paraformer的性能,我们在标准Paraformer骨干结构上增加了时间戳预测和热词定制功能。此外,为了促进模型部署,我们开源了一种基于前馈顺序记忆网络(FSMN-VAD)的语音活动检测模型和一种基于可控时间延迟变压器(CT-Transformer)的文本后处理标点符号模型,两者均在工业语料库上进行了训练。这些功能模块为构建高精度的长音频语音识别服务提供了坚实的基础。与其他在开放数据集上训练的模型相比,Paraformer表现出更优异的性能。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢