- 简介我们提出了一种新颖的自动音频字幕生成框架EnCLAP。EnCLAP采用了两个声学表示模型,EnCodec和CLAP,以及一个预训练的语言模型BART。我们还引入了一种新的训练目标,称为掩码编解码建模,以提高预训练语言模型的声学感知能力。在AudioCaps和Clotho上的实验结果表明,我们的模型超过了基线模型的性能。源代码将在https://github.com/jaeyeonkim99/EnCLAP上提供。在线演示可在https://huggingface.co/spaces/enclap-team/enclap上使用。
-
- 图表
- 解决问题EnCLAP论文旨在提出一种新的框架,用于自动化音频字幕生成。该框架旨在解决音频字幕生成中的挑战,如如何处理声音信号,如何获得正确的语言表达。
- 关键思路EnCLAP框架采用了两种声学表示模型,EnCodec和CLAP,以及一个预训练的语言模型BART。同时,论文还引入了一种新的训练目标,称为masked codec modeling,以提高预训练语言模型的声学感知能力。
- 其它亮点论文的实验结果表明,EnCLAP模型在AudioCaps和Clotho数据集上的表现优于基线模型。作者提供了开源代码,并提供了在线演示。此外,论文还探讨了一些值得进一步研究的问题,如如何处理多语言音频字幕生成和如何在低资源环境下进行音频字幕生成。
- 最近在音频字幕生成领域中的相关研究包括:1.《Listen, Attend and Spell》;2.《A Hierarchical Approach for Generating Descriptions of Short Videos》;3.《Neural Audio Captioning with Self-attention》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流