以往的工作通常只在机器翻译阶段控制翻译后的单词/字母的数量,而不考虑在不同语言中单词/字符发音持续时间的不同。在这篇工作中,研究团队提出了一个为视频配音任务量身定制的机器翻译方法 VideoDubber,它直接考虑翻译中每个 token 的语音时长(duration),以匹配目标语音的长度。

具体来说,研究团队通过使用时长信息来引导每个单词的预测,从而控制生成句子的语音长度。实验结果表明,VideoDubber 在四个语言方向(德语→英语、西班牙语→英语、汉语↔英语)上的视频译制同步性方面优于基线模型。此外,由于真实视频译制数据集的不足,研究团队还构建了一个从电影中收集的真实场景测试集,对视频译制任务进行综合评价。

论文链接:

https://arxiv.org/abs/2211.16934

代码链接:
https://github.com/microsoft/NeuralSpeech/tree/master/VideoDubber
VideoDubber 使用语音时长信息来指导翻译过程中每个单词的预测,将其表示为两种位置编码。其次,VideoDubber 引入了一个特殊的 pause token,并将其插入到每个单词之间,以增强韵律建模的能力,更灵活地控制语音长度。第三,研究团队构建了一个从译制电影中收集的真实场景测试集,为视频配音系统提供更准确的评估。实验结果表明,VideoDubber 在测试集,尤其是真实场景测试集上表现出了更好的翻译质量和等时控制能力。
本文转自Paperweekly,阅读原文请点击这里
更多语音方面的研究工作,请关注该研究团队的语音研究主页

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除