DASB -- Discrete Audio and Speech Benchmark

2024年06月20日
  • 简介
    最近,离散音频令牌因其连接音频和语言处理的潜力而受到了广泛关注,使得现代多模式大型语言模型的创建成为可能。理想的音频令牌必须有效地保留语音和语义内容以及语用信息、说话人身份和其他细节。虽然最近提出了几种类型的音频令牌,但由于现有研究中评估设置的不一致,因此确定各种任务的最佳分词器具有挑战性。为了解决这个问题,我们发布了离散音频和语音基准(DASB),这是一个全面的排行榜,用于在广泛的区分任务中对离散音频令牌进行基准测试,包括语音识别、说话人识别和验证、情感识别、关键词检测和意图分类,以及生成任务,如语音增强、分离和文本转语音。我们的结果表明,平均而言,语义令牌在大多数区分和生成任务中优于压缩令牌。然而,语义令牌和标准连续表示之间的性能差距仍然很大,突显了在这个领域需要进一步研究的必要性。
  • 图表
  • 解决问题
    论文旨在研究离散音频令牌在语音处理中的应用,探索不同类型的令牌对于语音识别、说话人识别、情感识别、关键词检测、意图分类、语音增强、分离和文本转语音等任务的影响。
  • 关键思路
    通过发布Discrete Audio and Speech Benchmark (DASB)排行榜,评估不同类型的离散音频令牌在多种任务中的性能表现,发现语义令牌相比压缩令牌在大多数任务中表现更好,但与标准连续表示相比仍存在较大差距,需要进一步研究。
  • 其它亮点
    论文提出了DASB排行榜,评估了不同类型的离散音频令牌在多种任务中的性能表现;实验结果表明,语义令牌相比压缩令牌在大多数任务中表现更好;论文还提出了需要进一步研究的问题和方向。
  • 相关研究
    在这个领域中,最近的相关研究包括:'Unsupervised Learning of Disentangled and Interpretable Representations from Sequential Data'、'Discrete-State Variational Autoencoders for Joint Discovery and Factorization of Relations'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论