- 简介本文介绍了视频转音频(V2A)生成的挑战,即如何构建具有高生成质量、效率和视听时序同步的V2A模型。作者提出了一种基于修正流匹配的V2A模型Frieren。Frieren通过直线路径回归从噪声到频谱图潜变量的条件传输向量场,并通过ODE求解进行采样,从而在音频质量方面优于自回归和基于分数的模型。通过使用基于前馈变压器的非自回归向量场估计器和强时间对齐的通道级跨模态特征融合,我们的模型生成的音频与输入视频高度同步。此外,通过回流和引导向量场的单步蒸馏,我们的模型可以在几个或仅一个采样步骤内生成不错的音频。实验表明,Frieren在VGGSound上的生成质量和时序对齐方面均达到了最先进的水平,对齐精度达到了97.22%,比强扩散基线的Inception分数提高了6.2%。音频样本可在http://frieren-v2a.github.io上获得。
- 图表
- 解决问题该论文旨在解决从无声视频中合成匹配内容音频的问题,并验证了提出的模型在音频质量、效率和视听时序同步方面的优势。这是一个新的研究问题。
- 关键思路Frieren是一种基于修正的流匹配的V2A模型,通过直线路径回归从噪声到频谱图潜变量的条件传输向量场,并通过ODE求解进行采样,从而在音频质量方面优于自回归和基于分数的模型。模型使用基于前馈变换器的非自回归向量场估计器和具有强时间对齐的通道级跨模态特征融合,生成与输入视频高度同步的音频。此外,通过回流和引导向量场的单步蒸馏,我们的模型可以在几个或甚至一个采样步骤中生成体面的音频。
- 其它亮点该模型在VGGSound上实现了音频质量和时间对齐方面的最新性能,时间对齐精度达到了97.22%,并且比强扩散基线的Inception分数提高了6.2%。作者还提供了音频样本和开源代码。
- 最近在这个领域中,还有一些相关研究,例如:1)'Unsupervised Sound Separation Using Mixtures of Mixtures';2)'Music Transformer: Generating Music with Long-Term Structure';3)'Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis'。
沙发等你来抢
去评论
评论
沙发等你来抢