- 简介本文提出了一种新颖的直接音视频语音到音视频语音转换(AV2AV)框架,其中系统的输入和输出是多模态的(即音频和视觉语音)。通过提出的AV2AV,可以带来两个关键优势:1)我们可以利用自己的母语在虚拟会议中与世界各地的个人进行真实的对话。与仅在音频模态之间进行翻译的语音到语音翻译(A2A)相比,所提出的AV2AV直接在音视频语音之间进行翻译。这种能力通过呈现同步的嘴唇运动和翻译的语音来增强对话体验。2)我们可以提高口语翻译系统的鲁棒性。通过利用音视频语音的互补信息,系统可以有效地翻译口语,即使在存在声学噪声的情况下,也可以展示出鲁棒的性能。为了缓解缺乏平行AV2AV翻译数据集的问题,我们建议使用A2A的仅音频数据集来训练我们的口语翻译系统。通过事先进行自监督学习来学习统一的音视频语音表示,从而训练翻译系统。此外,我们提出了一个AV-Renderer,可以并行生成原始音频和视频。它采用零-shot说话人建模设计,因此源音视频语音中的说话人可以保持在目标翻译的音视频语音中。AV2AV的有效性在多对多语言翻译设置中进行了广泛的实验评估。演示页面可在https://choijeongsoo.github.io/av2av上获得。
-
- 图表
- 解决问题本论文提出了一种直接的音视频到音视频翻译框架,旨在提高语音翻译系统的鲁棒性和对话体验。
- 关键思路论文提出的AV2AV框架直接翻译音视频语音,不仅可以提供同步的唇形动作,提高对话体验,而且可以利用音视频互补信息,提高系统的鲁棒性。
- 其它亮点论文使用自监督学习预先训练了统一的音视频表示,解决了缺乏平行AV2AV翻译数据集的问题。论文还提出了AV-Renderer,可以并行生成原始音频和视频,并具有零样本说话人建模的能力。实验结果表明,AV2AV在多对多语言翻译中表现良好。论文提供了演示页面和开源代码。
- 在这个领域中,最近的相关研究包括:1)基于深度学习的语音翻译系统;2)使用视觉信息提高语音识别的准确性;3)基于多模态信息的对话系统。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~

提问交流