PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation

简介

最近，音频生成任务引起了相当多的研究兴趣。精确的时间可控性对于将音频生成与实际应用集成是至关重要的。在这项工作中，我们提出了一种时间可控音频生成框架——PicoAudio。PicoAudio通过量身定制的模型设计将时间信息整合到音频生成中。它利用数据爬取、分割、过滤和模拟精细的时间对齐的音频文本数据。主观和客观评估表明，PicoAudio在时间戳和发生频率可控性方面显著超越了当前最先进的生成模型。生成的样本可在演示网站https://zeyuxie29.github.io/PicoAudio.github.io上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在提出一种能够精确控制时间的音频生成框架，以便将音频生成与实际应用相结合。
关键思路

PicoAudio通过量身定制的模型设计，整合时间信息来指导音频生成。它利用数据爬取、分割、过滤和模拟精细的时间对齐音频文本数据。
其它亮点

PicoAudio在时间戳和发生频率可控性方面显著超越了当前最先进的生成模型，得到了主观和客观评估的验证。论文提供了生成样本的演示网站，并对实验设计、数据集和开源代码进行了介绍。
相关研究

最近的相关研究包括：1.《MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms》；2.《WaveGrad: Estimating Gradients for Waveform Generation》；3.《Parallel WaveGAN: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-resolution Spectrogram》。

PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation

提问交流

提问交流