Synthesizing Soundscapes: Leveraging Text-to-Audio Models for Environmental Sound Classification

简介

过去几年中，文本转音频模型已成为自动生成音频的重要进展。虽然它们代表了令人印象深刻的技术进步，但它们在开发音频应用方面的有效性仍然不确定。本文旨在研究这些方面，特别关注环境声音分类任务。本研究分析了两种不同环境分类系统的性能，当使用来自文本转音频模型的数据进行训练时，具体考虑两种情况：a）当训练数据集通过来自两个不同文本转音频模型的数据进行增强；和b）当训练数据集仅由合成音频生成。在两种情况下，分类任务的性能都在真实数据上进行了测试。结果表明，文本转音频模型对于数据集增强是有效的，而当仅依赖于生成的音频时，模型的性能会下降。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究文本转音频模型在环境声音分类中的应用效果，探究其数据增强和单独使用生成音频两种情况下的分类任务表现
关键思路

文本转音频模型在数据增强方面表现良好，但在仅使用生成音频时分类任务表现下降
其它亮点

实验使用了两种不同的环境声音分类系统，对比了数据增强和单独使用生成音频两种情况下的分类任务表现，结果表明文本转音频模型在数据增强方面表现良好，但在仅使用生成音频时分类任务表现下降
相关研究

近期的相关研究包括基于深度学习的音频分类、文本转语音技术等，其中包括文献《Deep learning for audio classification: A comprehensive review》、《A Survey of Text-to-Speech Synthesis Systems》等

Synthesizing Soundscapes: Leveraging Text-to-Audio Models for Environmental Sound Classification

提问交流

提问交流