Relational Proxy Loss for Audio-Text based Keyword Spotting

2024年06月08日
  • 简介
    最近几年,越来越注重用户便利性,导致对于基于文本的关键词检测系统(KWS)的兴趣增加。由于该系统在注册阶段使用文本输入,在实际使用中使用音频输入,因此我们称之为基于音频和文本的KWS。为了实现这个任务,通常使用深度度量学习损失函数,如三元组和代理损失,来训练声学和文本编码器。本研究旨在通过利用声学嵌入和文本嵌入中的结构关系来改进现有方法。与之前仅在点对点基础上比较声学和文本嵌入的研究不同,我们的方法专注于嵌入空间内的关系结构,引入了关系代理损失(RPL)的概念。通过整合RPL,我们在《华尔街日报》语料库上展示了更好的性能。
  • 图表
  • 解决问题
    本论文旨在改进现有的文本关键词识别系统,通过引入关系代理损失(RPL)的概念,集中于嵌入空间中的关系结构,以提高音频-文本基础的关键词识别的性能。
  • 关键思路
    通过引入RPL的概念,利用嵌入空间中的关系结构,改进现有的文本关键词识别系统,提高音频-文本基础的关键词识别的性能。
  • 其它亮点
    论文通过在Wall Street Journal(WSJ)语料库上进行实验,证明了引入RPL的方法可以提高音频-文本基础的关键词识别的性能。此外,论文还介绍了使用深度度量学习损失函数进行文本编码器和声学编码器的训练的方法。
  • 相关研究
    与本论文相关的研究包括使用深度学习进行文本关键词识别的研究,以及使用不同的损失函数进行嵌入学习的研究。其中一些论文的标题包括“Deep Learning for Keyword Spotting: A Review”和“Deep Metric Learning with Hierarchical Triplet Loss”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论