- 简介本文介绍了一种名为对比语音-文本预训练(CLAP)的方法,该方法可对齐语音和文本的表示,实现了出色的检索和分类任务性能。然而,当前的CLAP难以捕捉音频和文本特征中的时间信息,这对于音频检索和生成等任务存在重大限制。为了解决这个问题,我们引入了T-CLAP,这是一种增强时间性能的CLAP模型。我们使用大型语言模型(LLMs)和混合策略从广泛的音频-文本数据集中生成时间对比的字幕。随后,我们设计了一种新的时间对比损失,通过加入这些合成数据来微调CLAP模型。我们在多个下游任务中进行了全面的实验和分析。T-CLAP展现出了更好的捕捉声音事件时间关系的能力,并且在性能上明显优于最先进的模型。
-
- 图表
- 解决问题本论文旨在解决当前CLAP模型难以捕捉音频和文本特征内部的时间信息,限制了其在音频检索和生成等任务中的应用。
- 关键思路T-CLAP模型使用大型语言模型和混合策略生成音频剪辑的时间对比性标题,并设计了一种新的时间对比损失,通过合成数据微调CLAP模型,以捕捉声音事件的时间关系。
- 其它亮点论文通过实验分析展示了T-CLAP在多个下游任务中的改进能力,并显示出比当前最先进的模型显著的优势。论文使用了大量的音频文本数据集,并提供了开源代码。
- 最近的相关研究包括CLAP模型以及其他音频和文本特征对齐的模型,如AudioBERT和UniSpeech。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流