Improving Audio Generation with Visual Enhanced Caption

向作者提问

NEW

简介

生成模型在音频生成任务中已经取得了显著的成就。然而，现有模型在处理复杂和详细的提示时存在困难，可能导致性能下降。我们假设这个问题源于训练数据的质量低和数量相对较少。在这项工作中，我们旨在创建一个具有丰富字幕的大规模音频数据集，以改善音频生成模型。我们开发了一个自动化流水线，通过使用大型语言模型（LLM）将预测的视觉字幕、音频字幕和标记标签转换为综合描述，生成详细的音频-视觉数据集字幕。我们介绍了Sound-VECaps，这是一个包含1.66M个高质量音频-字幕对的数据集，包括音频事件顺序、发生地点和环境信息等丰富细节。我们证明，使用Sound-VECaps进行训练可以显著增强文本到音频生成模型理解和生成复杂输入提示的能力，提高整个系统的性能。此外，我们在几个音频-语言任务上进行了Sound-VECaps的消融研究，表明它在推进音频-文本表示学习方面具有潜力。我们的数据集和模型可以在线获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在创建一个大规模的音频数据集，带有丰富的字幕，以提高音频生成模型的性能。作者认为现有模型在处理复杂和详细的提示时存在困难，这可能源于训练数据的质量和数量不足。
关键思路

论文提出了一种自动化流程，将预测的视觉字幕、音频字幕和标记标签转换为综合描述，从而生成详细的音频字幕。作者创建了一个名为Sound-VECaps的数据集，包括166万个高质量的音频-字幕对，其中包括音频事件顺序、发生地点和环境信息等丰富细节。通过Sound-VECaps的训练，作者证明了训练模型可以显著提高文本到音频生成模型的性能。
其它亮点

论文使用了自动化流程生成了一个大规模的音频数据集，并且在数据集上进行了实验来证明其有效性。Sound-VECaps数据集包含丰富的音频-字幕对细节，可以用于提高文本到音频生成模型的性能，同时还可以用于音频-文本表示学习。论文提供了数据集和模型的开源代码。
相关研究

最近的相关研究包括使用GAN生成音频的研究，以及使用Transformer模型进行音频-文本生成的研究。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问