- 简介我们介绍了Hibiki,这是一种用于同步语音翻译的仅解码器模型。Hibiki利用多流语言模型同步处理源语言和目标语言的语音,并联合生成文本和音频标记以执行语音到文本和语音到语音的翻译。此外,我们还解决了同声传译的基本挑战。与连续传译不同,后者需要等到源语言表达结束才开始翻译,而同声传译则调整其流程,在实时中逐块积累足够的上下文以产生正确的翻译。为此,我们引入了一种弱监督方法,该方法利用现成的文本翻译系统的困惑度来按单词识别最佳延迟并创建对齐的合成数据。经过有监督的训练后,Hibiki通过简单的温度采样实现了自适应的同步语音翻译。在法语-英语同步语音翻译任务中,Hibiki展示了在翻译质量、说话人保真度和自然性方面的最先进性能。此外,其推理过程的简单性使其能够兼容批量翻译,甚至支持实时设备上的部署。我们提供了示例以及模型和推理代码。
- 图表
- 解决问题该论文旨在解决同时语音翻译中的挑战,特别是如何在源语音未结束时实时生成准确的翻译。这与传统的连续翻译不同,后者需等待整个源语句结束后才开始翻译。这是一种相对较新的问题,尤其是在尝试实现高质量的同时语音到文本和语音到语音翻译方面。
- 关键思路Hibiki模型的关键思路是利用多流语言模型同步处理源语言和目标语言的语音,并联合生成文本和音频标记以完成翻译任务。此外,它引入了一种弱监督方法,通过评估现成文本翻译系统的困惑度来确定每个单词的最佳延迟,从而创建对齐的合成数据。这种方法使得Hibiki可以在累积足够上下文的情况下,逐块地进行实时翻译,这是现有研究中的一种创新。
- 其它亮点论文展示了Hibiki在法语-英语同时语音翻译任务上的卓越表现,不仅在翻译质量、说话人保真度和自然度上达到了最先进水平,而且其简单的推理过程使其能够兼容批量翻译甚至实时设备部署。作者还提供了模型和推理代码,便于后续研究者复现结果并进一步探索。
- 最近的相关研究包括:1.《SimulTrans: A Framework for Simultaneous Translation》, 提出了一个框架来处理同时翻译的不同方面;2.《Adaptive Delay Control for Simultaneous Speech-to-Text Translation》, 探讨了如何控制延迟以提高翻译性能;3.《End-to-End Simultaneous Speech Translation with Pre-Trained Models》, 利用预训练模型改进端到端的同时翻译系统。这些研究都为Hibiki的发展提供了重要参考。
沙发等你来抢
去评论
评论
沙发等你来抢