T-CLAP: Temporal-Enhanced Contrastive Language-Audio Pretraining

2024年04月27日
  • 简介
    本文介绍了一种名为对比语音-文本预训练(CLAP)的方法,该方法可对齐语音和文本的表示,实现了出色的检索和分类任务性能。然而,当前的CLAP难以捕捉音频和文本特征中的时间信息,这对于音频检索和生成等任务存在重大限制。为了解决这个问题,我们引入了T-CLAP,这是一种增强时间性能的CLAP模型。我们使用大型语言模型(LLMs)和混合策略从广泛的音频-文本数据集中生成时间对比的字幕。随后,我们设计了一种新的时间对比损失,通过加入这些合成数据来微调CLAP模型。我们在多个下游任务中进行了全面的实验和分析。T-CLAP展现出了更好的捕捉声音事件时间关系的能力,并且在性能上明显优于最先进的模型。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决当前CLAP模型难以捕捉音频和文本特征内部的时间信息,限制了其在音频检索和生成等任务中的应用。
  • 关键思路
    T-CLAP模型使用大型语言模型和混合策略生成音频剪辑的时间对比性标题,并设计了一种新的时间对比损失,通过合成数据微调CLAP模型,以捕捉声音事件的时间关系。
  • 其它亮点
    论文通过实验分析展示了T-CLAP在多个下游任务中的改进能力,并显示出比当前最先进的模型显著的优势。论文使用了大量的音频文本数据集,并提供了开源代码。
  • 相关研究
    最近的相关研究包括CLAP模型以及其他音频和文本特征对齐的模型,如AudioBERT和UniSpeech。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问