PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation

2024年07月03日
  • 简介
    最近,音频生成任务引起了相当多的研究兴趣。精确的时间可控性对于将音频生成与实际应用集成是至关重要的。在这项工作中,我们提出了一种时间可控音频生成框架——PicoAudio。PicoAudio通过量身定制的模型设计将时间信息整合到音频生成中。它利用数据爬取、分割、过滤和模拟精细的时间对齐的音频文本数据。主观和客观评估表明,PicoAudio在时间戳和发生频率可控性方面显著超越了当前最先进的生成模型。生成的样本可在演示网站https://zeyuxie29.github.io/PicoAudio.github.io上获得。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在提出一种能够精确控制时间的音频生成框架,以便将音频生成与实际应用相结合。
  • 关键思路
    PicoAudio通过量身定制的模型设计,整合时间信息来指导音频生成。它利用数据爬取、分割、过滤和模拟精细的时间对齐音频文本数据。
  • 其它亮点
    PicoAudio在时间戳和发生频率可控性方面显著超越了当前最先进的生成模型,得到了主观和客观评估的验证。论文提供了生成样本的演示网站,并对实验设计、数据集和开源代码进行了介绍。
  • 相关研究
    最近的相关研究包括:1.《MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms》;2.《WaveGrad: Estimating Gradients for Waveform Generation》;3.《Parallel WaveGAN: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-resolution Spectrogram》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问