本文介绍作者团队设计的一种多阶段的预训练方法,利用有标注和无标注数据来提升端到端的语音翻译系统性能。利用设计了降噪的方式以及对比学习结合适配的设计减少了预训练模型之间的差异。
论文题目: Improving End-to-end Speech Translation by Leveraging Auxiliary Speech and Text Data
论文机构: 东北大学自然语言处理实验室
论文作者: 张裕浩,许晨,胡博杰,张春良,肖桐,朱靖波
论文链接:https://arxiv.org/pdf/2212.01778.pdf(opens new window)
引言
为了解决这些问题,以音频为输入最后直接输出翻译结果的语音翻译任务应运而生。一种自然而然的思路是基于成熟的语音识别和文本翻译技术形成级联系统。这种级联的系统首先利用语音识别模型将音频转换为文本,然后再将文本作为源语言送入翻译模型中最后输出目标语。这种思路最大的好处是可以直接利用现有的最优秀的语音和翻译方法构建出语音翻译系统,同时可以随时替换其中的翻译或者语音模块。但是缺点也是显而易见的,主要是两点:其一是错误传播问题,翻译模型是无法对语音模型的输出结果进行修复的,因为翻译模型得到所有的信息都是输入的文本信息,无法获得原始的音频信号,因此如果前者的识别结果出现了错误,那么之后的翻译模型便会基于错误的识别结果翻译出更加错误的文本。其二是效率问题,基于神经网络的模型通常需要进行大量的乘法等高纬度张量计算,同时解码过程也需要进行一些搜索方法,那么基于两个模型的解码过程无疑会使得整个系统的延迟更加严重。当然还有一些语言是不存在对应文本的,如我国少数民族语言的苗语,则无法利用级联模型进行语音翻译。
针对级联系统的弊端,基于端到端方法的语音翻译系统近年来逐渐兴起。这种端到端的方法不再输出中间的语音转录结果,转而直接输出翻译结果。由于整个系统更加紧凑,同时能够直接根据音频的信息进行翻译,进而完全避免了之前级联系统的问题。那么这种又好又快的系统,为什么没有大规模的运用呢?因为问题也是显而易见的,端到端的语言翻译系统要求利用一个系统同时完成跨模态、跨语言,难度无疑是巨大的。雪上加霜的是,当前很多任务的成功都基于海量的有标注数据,如语音识别任务通常训练数据已经达到上万小时,而翻译数据在评测任务中也已经达到几千万甚至上亿平行语料,反观语音翻译任务,由于将原始音频翻译到目标语的标注过程十分困难,很难得到大规模数据。由于任务困难以及标注数据的匮乏,导致了目前端到端系统在性能上和级联系统还存在着不小的差距。
图1 级联模型与端到端模型对比
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢