ACL 2022 | 中科院计算所、字节等提出：语音翻译新方法 STEMM——跨模态混合训练缓解模态鸿沟

如何缓解语音与文本之间的模态鸿沟，有效利用文本翻译数据提高语音翻译的性能，是一个值得探究的问题。今天就为大家介绍一篇由中科院计算所、字节跳动 AI-Lab 与加州大学圣塔芭芭拉分校共同发表在 ACL 2022 上的长文 —— STEMM: Self-learning with Speech-TExt Manifold Mixup for Speech Translation[8]。

这篇文章针对语音翻译中的模态鸿沟问题，提出了一种简单有效的跨模态 Mixup 方法，通过 Mixup 产生同时包含语音表示和文本表示的序列，从而使模型在训练过程中建立模态间的联系。在此基础上，本文引入了一个自我学习框架，使语音翻译任务从 Mixup 中学习知识，进而提升语音翻译的性能。