- 简介代码切换是印度等多语社会中普遍存在的语言现象。由于数据集的有限性,为代码切换语音构建语音转文本模型具有挑战性。本研究关注印度语言到英语文本的代码切换语音口译问题。我们提出了一种新的端到端模型架构COSTA,它以预训练的自动语音识别(ASR)和机器翻译(MT)模块为基础(这些模块对于许多语言更广泛地可用)。使用对齐的交错方案融合语音和ASR文本表示,并将其进一步作为输入提供给预训练的MT模块;然后使用人工合成的ST数据对整个流程进行端到端的口译训练。我们还发布了一个新的评估基准,用于评估代码切换的孟加拉语-英语、印地语-英语、马拉地语-英语和泰卢固语-英语语音到英语文本的性能。COSTA的性能比许多竞争的级联和端到端多模式基线高出3.5个BLEU点。
- 图表
- 解决问题论文试图解决印度语言中的混合语言现象对语音翻译的挑战,尤其是缺乏数据集的问题。
- 关键思路论文提出了一种新的端到端模型COSTA,利用预训练的自动语音识别和机器翻译模型,通过对齐交错的方式将语音和ASR文本表示融合,然后输入到预训练的机器翻译模型中,使用合成的ST数据进行端到端训练。
- 其它亮点论文提供了一个新的评估基准,包括孟加拉语-英语、印地语-英语、马拉地语-英语和特鲁古语-英语的混合语音到英文文本翻译。COSTA相比其他竞争的级联和端到端多模态基线,BLEU分数提高了3.5个点。论文还开源了代码。
- 最近的相关研究包括基于语音识别和机器翻译的多模态方法,以及利用深度学习技术处理混合语言的研究。例如:“Multimodal End-to-End Speech Translation”和“Neural Machine Translation of Rare Words with Subword Units”。
沙发等你来抢
去评论
评论
沙发等你来抢