DASB -- Discrete Audio and Speech Benchmark

2024年06月20日
  • 简介
    最近,离散音频标记因其连接音频和语言处理的潜力而受到了相当大的关注,使得现代多模态大型语言模型的创建成为可能。理想的音频标记必须有效地保留语音和语义内容以及语用信息、说话者身份和其他细节。虽然最近提出了几种类型的音频标记,但由于现有研究中评估设置的不一致性,确定各种任务的最佳分词器是具有挑战性的。为了填补这一空白,我们发布了离散音频和语音基准(DASB),这是一个全面的排行榜,可用于在广泛的区分任务中对离散音频标记进行基准测试,包括语音识别、说话者识别和验证、情感识别、关键词检测和意图分类,以及生成任务,如语音增强、分离和文本转语音。我们的结果表明,平均而言,语义标记在大多数区分和生成任务中优于压缩标记。然而,语义标记和标准连续表示之间的性能差距仍然很大,突显了在这个领域需要进一步的研究。
  • 图表
  • 解决问题
    研究最优的离散音频标记以连接音频和语言处理,解决当前评估设置不一致的问题。
  • 关键思路
    通过Discrete Audio and Speech Benchmark(DASB)进行广泛的基准测试,发现语义标记在大多数区分性和生成性任务上优于压缩标记,但与标准连续表示之间的性能差距仍然很大。
  • 其它亮点
    使用DASB进行广泛的基准测试,包括区分性任务和生成性任务。发现语义标记在大多数任务上表现更好,但与标准连续表示之间的性能差距仍然很大。需要进一步研究。
  • 相关研究
    与该论文相关的研究包括:1)《Representation Learning for Audio Classification Using Deep Neural Networks》;2)《A Comparative Study of Discrete and Continuous Neural Speech Recognition Models》;3)《Phonetic and Semantic Representations in Audio Embeddings》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论