- 简介声音内容是多媒体作品(如视频游戏、音乐和电影)不可或缺的元素。最近,高质量的扩散式声音生成模型可以作为创作者的有价值工具。然而,尽管这些模型可以产生高质量的声音,但它们经常遭受缓慢的推理速度的困扰。这个缺点给创作者带来了负担,他们通常通过试错来调整声音以符合他们的艺术意图。为了解决这个问题,我们引入了声音一致性轨迹模型(SoundCTM)。我们的模型可以在高质量的1步声音生成和通过多步生成实现更高的声音质量之间进行灵活的过渡。这使得创作者可以在通过多步生成调整声音之前,通过1步样本来控制声音。虽然CTM基本上实现了灵活的1步和多步生成,但它的出色性能严重依赖于额外的预训练特征提取器和对抗损失,这些都是昂贵的训练成本,并且在其他领域中并不总是可用。因此,我们重新构建了CTM的训练框架,并利用教师网络的蒸馏损失引入了一种新的特征距离。此外,在蒸馏无分类器引导轨迹的同时,我们同时训练条件和无条件的学生模型,并在推理过程中在这些模型之间进行插值。我们还提出了无需训练的可控框架,利用其灵活的采样能力。SoundCTM实现了有前途的1步和多步实时声音生成,而不使用任何额外的现成网络。此外,我们展示了SoundCTM在无需训练的情况下实现可控声音生成的能力。我们的代码、预训练模型和音频样本可在https://github.com/sony/soundctm上获得。
- 图表
- 解决问题论文旨在解决高质量音频生成模型推理速度慢的问题,提出了一种灵活的 Sound Consistency Trajectory Models (SoundCTM) 模型。
- 关键思路SoundCTM 模型通过预训练特征提取器和对抗损失实现了高质量音频的灵活的一步和多步生成,同时引入了一种基于教师网络的蒸馏损失,使得模型训练更加高效。
- 其它亮点论文提供了代码、预训练模型和音频样本,SoundCTM 模型实现了高质量音频的实时一步和多步生成,同时提供了无需训练的可控框架,值得进一步研究。
- 最近的相关研究包括使用深度学习模型生成高质量音频的工作,如 WaveNet、MelGAN、HiFiGAN 等。
沙发等你来抢
去评论
评论
沙发等你来抢