如何缓解语音与文本之间的模态鸿沟,有效利用文本翻译数据提高语音翻译的性能,是一个值得探究的问题。今天就为大家介绍一篇由中科院计算所、字节跳动 AI-Lab 与加州大学圣塔芭芭拉分校共同发表在 ACL 2022 上的长文 —— STEMM: Self-learning with Speech-TExt Manifold Mixup for Speech Translation[8]。

这篇文章针对语音翻译中的模态鸿沟问题,提出了一种简单有效的跨模态 Mixup 方法,通过 Mixup 产生同时包含语音表示和文本表示的序列,从而使模型在训练过程中建立模态间的联系。在此基础上,本文引入了一个自我学习框架,使语音翻译任务从 Mixup 中学习知识,进而提升语音翻译的性能。

论文地址:https://aclanthology.org/2022.acl-long.486.pdf
代码地址:https://github.com/ictnlp/STEMM

内容中包含的图片若涉及版权问题,请及时与我们联系删除