T-CLAP: Temporal-Enhanced Contrastive Language-Audio Pretraining

简介

本文介绍了一种名为对比语音-文本预训练（CLAP）的方法，该方法可对齐语音和文本的表示，实现了出色的检索和分类任务性能。然而，当前的CLAP难以捕捉音频和文本特征中的时间信息，这对于音频检索和生成等任务存在重大限制。为了解决这个问题，我们引入了T-CLAP，这是一种增强时间性能的CLAP模型。我们使用大型语言模型（LLMs）和混合策略从广泛的音频-文本数据集中生成时间对比的字幕。随后，我们设计了一种新的时间对比损失，通过加入这些合成数据来微调CLAP模型。我们在多个下游任务中进行了全面的实验和分析。T-CLAP展现出了更好的捕捉声音事件时间关系的能力，并且在性能上明显优于最先进的模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决当前CLAP模型难以捕捉音频和文本特征内部的时间信息，限制了其在音频检索和生成等任务中的应用。
关键思路

T-CLAP模型使用大型语言模型和混合策略生成音频剪辑的时间对比性标题，并设计了一种新的时间对比损失，通过合成数据微调CLAP模型，以捕捉声音事件的时间关系。
其它亮点

论文通过实验分析展示了T-CLAP在多个下游任务中的改进能力，并显示出比当前最先进的模型显著的优势。论文使用了大量的音频文本数据集，并提供了开源代码。
相关研究

最近的相关研究包括CLAP模型以及其他音频和文本特征对齐的模型，如AudioBERT和UniSpeech。

T-CLAP: Temporal-Enhanced Contrastive Language-Audio Pretraining

提问交流

提问交流