字节跳动智能创作语音团队 SAMI(Speech, Audio and Music Intelligence)近日发布了新一代的低延迟、超拟人的实时 AI 变声技术。不同于传统的变声,AI 变声是基于深度学习的声音转换(Voice Conversion)技术来实现的,可以实现任意发音人的音色定制,极大程度保留原始音色的特点。

该方案的亮点如下:

  • 在 CPU 单核上就能做到极低延迟的实时输入实时变声,就像 “柯南领结” 一样;
  • 能够高度还原输入语音的抑扬顿挫、情感、口音,甚至连轻微的呼吸、咳嗽声也能还原;
  • 媲美真人的高保真音质,以及高度的目标音色一致性;

预计这项技术未来在虚拟人、短视频玩法、客服服务、直播互动玩法上有着很大的落地空间。

阅读详细报道