- 简介最近,音频生成任务引起了相当多的研究兴趣。精确的时间可控性对于将音频生成与实际应用集成是至关重要的。在这项工作中,我们提出了一种时间可控音频生成框架——PicoAudio。PicoAudio通过量身定制的模型设计将时间信息整合到音频生成中。它利用数据爬取、分割、过滤和模拟精细的时间对齐的音频文本数据。主观和客观评估表明,PicoAudio在时间戳和发生频率可控性方面显著超越了当前最先进的生成模型。生成的样本可在演示网站https://zeyuxie29.github.io/PicoAudio.github.io上获得。
-
- 图表
- 解决问题论文旨在提出一种能够精确控制时间的音频生成框架,以便将音频生成与实际应用相结合。
- 关键思路PicoAudio通过量身定制的模型设计,整合时间信息来指导音频生成。它利用数据爬取、分割、过滤和模拟精细的时间对齐音频文本数据。
- 其它亮点PicoAudio在时间戳和发生频率可控性方面显著超越了当前最先进的生成模型,得到了主观和客观评估的验证。论文提供了生成样本的演示网站,并对实验设计、数据集和开源代码进行了介绍。
- 最近的相关研究包括:1.《MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms》;2.《WaveGrad: Estimating Gradients for Waveform Generation》;3.《Parallel WaveGAN: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-resolution Spectrogram》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流