Synthesizing Soundscapes: Leveraging Text-to-Audio Models for Environmental Sound Classification

2024年03月26日
  • 简介
    过去几年中,文本转音频模型已成为自动生成音频的重要进展。虽然它们代表了令人印象深刻的技术进步,但它们在开发音频应用方面的有效性仍然不确定。本文旨在研究这些方面,特别关注环境声音分类任务。本研究分析了两种不同环境分类系统的性能,当使用来自文本转音频模型的数据进行训练时,具体考虑两种情况:a)当训练数据集通过来自两个不同文本转音频模型的数据进行增强;和b)当训练数据集仅由合成音频生成。在两种情况下,分类任务的性能都在真实数据上进行了测试。结果表明,文本转音频模型对于数据集增强是有效的,而当仅依赖于生成的音频时,模型的性能会下降。
  • 图表
  • 解决问题
    研究文本转音频模型在环境声音分类中的应用效果,探究其数据增强和单独使用生成音频两种情况下的分类任务表现
  • 关键思路
    文本转音频模型在数据增强方面表现良好,但在仅使用生成音频时分类任务表现下降
  • 其它亮点
    实验使用了两种不同的环境声音分类系统,对比了数据增强和单独使用生成音频两种情况下的分类任务表现,结果表明文本转音频模型在数据增强方面表现良好,但在仅使用生成音频时分类任务表现下降
  • 相关研究
    近期的相关研究包括基于深度学习的音频分类、文本转语音技术等,其中包括文献《Deep learning for audio classification: A comprehensive review》、《A Survey of Text-to-Speech Synthesis Systems》等
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论