《Large-Scale Automatic Audiobook Creation》[Microsoft] (2023)

Brendan Walsh, Mark Hamilton, Greg Newby, Xi Wang, Serena Ruan, Sheng Zhao, Lei He, Shaofei Zhang, Eric Dettinger, William T. Freeman, Markus Weimer

传统的有声读物制作需要数百小时的人工工作,本文介绍了一个从电子书自动生成有声读物的系统。利用神经文本转语音的进展,从古腾堡项目中创建了数以千计的高质量、开放授权的有声读物。

可以识别各种结构电子书的适当文本内容,并对数百本书进行并行处理。用户可以用少量音频样本自定义语速/语调、情感语气和语音。

该系统贡献了超过五千本开放授权的有声读物,以及一个快速创建自定义有声读物的演示。

论文地址:https://arxiv.org/pdf/2309.03926.pdf 

内容中包含的图片若涉及版权问题,请及时与我们联系删除