近期,清华大学和字节跳动智能创作语音团队业内首次提出了神经网络配音器(Neural Dubber)。这项研究能让 AI 根据配音脚本,自动生成与画面节奏同步的高质量配音。相关论文 Neural Dubber: Dubbing for Videos According to Scripts 已入选机器学习和计算神经科学领域顶级学术会议 NeurIPS 2021。

图 1:自动视频配音(AVD)任务示意图。给定文本和视频作为输入,AVD 任务旨在合成与视频在时间上同步的语音。这是两个人互相交谈的场景。面部图片是灰色的,表示当时这个人没有说话。

内容中包含的图片若涉及版权问题,请及时与我们联系删除