- 简介本文介绍了一种名为Frieren的V2A模型,它基于修正的流匹配,旨在从无声视频中合成与内容匹配的音频。该模型通过直线路径回归从噪声到频谱图潜在空间的条件传输向量场,并通过求解ODE进行采样,从而在音频质量方面优于自回归和基于分数的模型。通过采用基于前馈变换器的非自回归向量场估计器和具有强时间对齐的通道级跨模态特征融合,我们的模型可以生成与输入视频高度同步的音频。此外,通过使用引导向量场的重新流动和一步蒸馏,我们的模型可以在几个采样步骤中甚至只有一个采样步骤中生成像样的音频。实验表明,Frieren在VGGSound上实现了最先进的性能,对齐精度达到97.22%,在入门分数方面比强扩散基线提高了6.2%。音频样本可在http://frieren-v2a.github.io上获得。
-
- 图表
- 解决问题本论文旨在解决视频转音频(V2A)生成中的高质量、高效率和视听时序同步的问题。
- 关键思路本文提出了一种基于修正流匹配的V2A模型Frieren,通过直线路径回归从噪声到声谱图潜变量的条件输运向量场,并通过ODE求解进行采样,从而在音频质量方面优于自回归和基于分数的模型。同时,通过采用基于前馈变压器的非自回归向量场估计器和强时序对齐的通道级跨模态特征融合,我们的模型生成的音频与输入视频高度同步。此外,通过重新流动和引导向量场的单步蒸馏,我们的模型可以在几个采样步骤甚至仅一个采样步骤中生成相当不错的音频。
- 其它亮点论文在VGGSound数据集上进行了实验,结果表明Frieren在生成质量和时序对齐方面均达到了最新水平,时序对齐准确率达到了97.22%,并且比强扩散基线的Inception得分提高了6.2%。论文提供了音频样本,并且开源了代码。
- 在这个领域的相关研究包括:《Flowtron: An Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis》、《MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis》、《Parallel WaveGAN: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-resolution Spectrogram》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流