- 简介过去几年中,文本转音频模型已成为自动生成音频的重要进展。虽然它们代表了令人印象深刻的技术进步,但它们在开发音频应用方面的有效性仍然不确定。本文旨在研究这些方面,特别关注环境声音分类任务。本研究分析了两种不同环境分类系统的性能,当使用来自文本转音频模型的数据进行训练时,具体考虑两种情况:a)当训练数据集通过来自两个不同文本转音频模型的数据进行增强;和b)当训练数据集仅由合成音频生成。在两种情况下,分类任务的性能都在真实数据上进行了测试。结果表明,文本转音频模型对于数据集增强是有效的,而当仅依赖于生成的音频时,模型的性能会下降。
- 图表
- 解决问题研究文本转音频模型在环境声音分类中的应用效果,探究其数据增强和单独使用生成音频两种情况下的分类任务表现
- 关键思路文本转音频模型在数据增强方面表现良好,但在仅使用生成音频时分类任务表现下降
- 其它亮点实验使用了两种不同的环境声音分类系统,对比了数据增强和单独使用生成音频两种情况下的分类任务表现,结果表明文本转音频模型在数据增强方面表现良好,但在仅使用生成音频时分类任务表现下降
- 近期的相关研究包括基于深度学习的音频分类、文本转语音技术等,其中包括文献《Deep learning for audio classification: A comprehensive review》、《A Survey of Text-to-Speech Synthesis Systems》等
沙发等你来抢
去评论
评论
沙发等你来抢