- 简介我们引入了罗马化编码来优化脚本密集型语言的多语言和代码切换自动语音识别(ASR)系统。通过在FastConformer-RNNT框架中采用平衡的连接分词器和配备Roman2Char模块的罗马化编码,我们显著减少了词汇和输出维度,使得更大的训练批次和更少的内存消耗成为可能。我们的方法解耦了声学建模和语言建模,提高了系统的灵活性和适应性。在我们的研究中,将这种方法应用于汉英ASR,词汇量减少了63.51%,在SEAME代码切换基准测试中表现出了显著的性能提升,分别为13.72%和15.03%。对汉语-韩语和汉语-日语的消融研究突显了我们的方法处理其他脚本密集型语言的复杂性的强大能力,为更多多语言ASR系统的多样性和有效性铺平了道路。
- 图表
- 解决问题本论文旨在优化多语言和代码转换自动语音识别(ASR)系统,通过采用罗马化编码和平衡的连接分词器,显著减少词汇量和输出维度,从而实现更大的训练批次和降低内存消耗。
- 关键思路论文的关键思路是采用罗马化编码和平衡的连接分词器,结合FastConformer-RNNT框架和Roman2Char模块,将声学模型和语言模型解耦合,提高系统的灵活性和适应性。
- 其它亮点通过将该方法应用于汉英ASR,词汇量减少了63.51%,在SEAME代码转换基准测试中性能提高了13.72%和15.03%。在汉语-韩语和汉语-日语的消融研究中,该方法表现出了很强的解决其他脚本重语言复杂性的能力,为更多多语言ASR系统的实现铺平了道路。
- 在该领域的相关研究包括:《Multilingual End-to-End Speech Recognition with a Shared Encoder and Attention Mechanism》、《Code-Switching Language Model Pre-training for End-to-End Speech Recognition》等。
沙发等你来抢
去评论
评论
沙发等你来抢