AudioTime: A Temporally-aligned Audio-text Benchmark Dataset

简介

最近音频生成方面的进展使得可以从自由文本描述中创建高保真音频剪辑。然而，时间关系作为音频内容的一个关键特征，在主流模型中目前受到了较少的关注，导致时间控制不够精确。具体来说，用户不能通过自由文本准确地控制声音事件的时间戳。我们认为一个重要因素是缺乏高质量的、时间对齐的音频-文本数据集，这对于训练具有时间控制的模型至关重要。注释越时间对齐，模型就越能理解音频输出和时间文本提示之间的精确关系。因此，我们提出了一个强时间对齐的音频-文本数据集，AudioTime。它提供了丰富的时间信息文本注释，如时间戳、持续时间、频率和排序，涵盖了几乎所有时间控制的方面。此外，我们还提供了一个全面的测试集和评估指标，以评估各种模型的时间控制性能。您可以在 https://zeyuxie29.github.io/AudioTime/ 上查看示例。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提供一种强对齐的音频文本数据集，以解决当前音频生成模型在时间控制方面的不足。
关键思路

提供一个包含时间戳、持续时间、频率和顺序等丰富时间信息的音频文本数据集AudioTime，以便训练具有时间控制的模型。
其它亮点

提供全面的测试集和评估指标以评估各种模型的时间控制性能；实验结果表明，使用AudioTime数据集训练的模型在时间控制方面表现更佳；作者提供了示例和开源代码。
相关研究

最近的相关研究包括：1）Tacotron 2，一种使用基于注意力机制的神经网络生成语音的模型；2）WaveNet，一种使用深度卷积神经网络生成高保真音频的模型。

AudioTime: A Temporally-aligned Audio-text Benchmark Dataset

提问交流

提问交流