EVA-GAN: Enhanced Various Audio Generation via Scalable Generative Adversarial Networks

简介

大型模型的出现标志着机器学习进入了一个新时代，通过利用大规模数据集捕捉和合成复杂的模式，显著优于较小的模型。尽管取得了这些进展，但在音频生成领域中，尤其是在高保真（HiFi）44.1kHz领域中，关于扩展的探索仍然有限，以前的努力没有扩展到这个领域，并且在高频领域存在光谱不连续性和模糊性，同时对于域外数据的鲁棒性不足。这些限制限制了模型在包括音乐和歌曲生成在内的各种用例中的适用性。我们的工作引入了增强各种音频生成的可扩展生成对抗网络（EVA-GAN），通过采用一个包含36,000小时44.1kHz音频的广泛数据集、一个上下文感知模块、一个人机交互式工具包来测量工件，并将模型扩展到大约2亿个参数，显著改进了先前最先进技术在光谱和高频重构以及域外数据性能方面的表现，使得可以生成HiFi音频。我们的工作演示可在https://double-blind-eva-gan.cc上获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决音频生成领域中大规模模型的可扩展性问题，提出了一种新的方法EVA-GAN，旨在生成高保真的音频。
关键思路

EVA-GAN利用了大规模数据集、上下文感知模块和人机交互测量工具包等技术手段，扩展了模型参数，并在高频重建和对域外数据的鲁棒性方面显著提高。
其它亮点

论文使用了一个包含36,000小时44.1kHz音频的庞大数据集，并开源了模型代码。实验结果表明，EVA-GAN在音频生成领域中取得了显著的进展。
相关研究

最近在音频生成领域中的相关研究包括：MelGAN、WaveGlow和Parallel WaveGAN等。

EVA-GAN: Enhanced Various Audio Generation via Scalable Generative Adversarial Networks

提问交流

提问交流