Sketch2Sound: Controllable Audio Generation via Time-Varying Signals and Sonic Imitations

2024年12月11日
  • 简介
    我们介绍了Sketch2Sound,这是一种生成音频模型,能够从一组可解释的时间变化控制信号(包括响度、亮度和音高,以及文本提示)中创建高质量的声音。Sketch2Sound 可以从声音模仿(即,声音模拟或参考声音形状)合成任意声音。Sketch2Sound 可以在任何文本到音频的潜在扩散变压器(DiT)上实现,并且只需要对每个控制信号进行 40,000 步微调和一个线性层,使其比现有的方法如 ControlNet 更轻量级。为了从类似草图的声音模仿中合成声音,我们提出在训练过程中对控制信号应用随机中值滤波器,使 Sketch2Sound 能够使用具有灵活时间特异性的控制信号进行提示。我们展示了 Sketch2Sound 可以根据语音模仿输入控制的主要内容合成声音,同时保持对输入文本提示的遵循和与仅文本基线相当的音频质量。Sketch2Sound 使声音艺术家能够在文本提示的语义灵活性和声音手势或语音模仿的表达性和精确性之间自由创作。声音示例可在 https://hugofloresgarcia.art/sketch2sound/ 获取。
  • 图表
  • 解决问题
    Sketch2Sound试图解决的问题是通过一组可解释的时间变化控制信号(如响度、亮度和音高)以及文本提示来生成高质量的声音。这是一个新颖的问题,特别是在结合文本提示与控制信号以实现更精确和语义灵活的声音合成方面。
  • 关键思路
    关键思路是将Sketch2Sound构建在任何文本到音频的潜在扩散变换器(DiT)之上,并通过仅40k步的微调和每个控制信号的一个线性层来实现这一目标。此外,为了从类似草图的声波模仿中合成声音,提出了在训练过程中对控制信号应用随机中值滤波器,从而允许使用具有不同时间特异性的控制信号。这种方法比现有的方法如ControlNet更加轻量级。
  • 其它亮点
    论文展示了Sketch2Sound能够根据输入的控制信号和文本提示生成高质量的声音,同时保留了输入文本的语义信息。实验设计包括使用随机中值滤波器处理控制信号,以适应不同水平的时间特异性。该模型在合成声音时能够跟随输入控制信号的总体趋势,同时保持与文本提示的一致性和音频质量。此外,作者提供了示例声音,供用户在https://hugofloresgarcia.art/sketch2sound/ 上试听。该研究还开放了源代码,鼓励进一步的研究和应用。
  • 相关研究
    近期在这个领域的一些相关研究包括:1.《ControlNet: Conditioning Diffusion Models with Control Signals for Image Generation》— 该研究探讨了如何通过控制信号调节扩散模型生成图像的方法;2.《Text-to-Audio Synthesis Using Transformer-Based Models》— 研究了基于Transformer的模型在文本到音频合成中的应用;3.《Neural Audio Synthesis with WaveNet》— 探索了WaveNet在生成高质量音频方面的潜力。这些研究为Sketch2Sound的发展提供了理论基础和技术支持。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论