EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning

向作者提问

NEW

简介

我们提出了一种新颖的自动音频字幕生成框架EnCLAP。EnCLAP采用了两个声学表示模型，EnCodec和CLAP，以及一个预训练的语言模型BART。我们还引入了一种新的训练目标，称为掩码编解码建模，以提高预训练语言模型的声学感知能力。在AudioCaps和Clotho上的实验结果表明，我们的模型超过了基线模型的性能。源代码将在https://github.com/jaeyeonkim99/EnCLAP上提供。在线演示可在https://huggingface.co/spaces/enclap-team/enclap上使用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

EnCLAP论文旨在提出一种新的框架，用于自动化音频字幕生成。该框架旨在解决音频字幕生成中的挑战，如如何处理声音信号，如何获得正确的语言表达。
关键思路

EnCLAP框架采用了两种声学表示模型，EnCodec和CLAP，以及一个预训练的语言模型BART。同时，论文还引入了一种新的训练目标，称为masked codec modeling，以提高预训练语言模型的声学感知能力。
其它亮点

论文的实验结果表明，EnCLAP模型在AudioCaps和Clotho数据集上的表现优于基线模型。作者提供了开源代码，并提供了在线演示。此外，论文还探讨了一些值得进一步研究的问题，如如何处理多语言音频字幕生成和如何在低资源环境下进行音频字幕生成。
相关研究

最近在音频字幕生成领域中的相关研究包括：1.《Listen, Attend and Spell》；2.《A Hierarchical Approach for Generating Descriptions of Short Videos》；3.《Neural Audio Captioning with Self-attention》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问