Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

2023年11月14日
  • 简介
    最近,指令跟随的语音语言模型因与人类的语音交互而受到广泛关注。然而,缺乏能够处理各种音频类型和任务的预训练音频模型已经阻碍了这个领域的进展。因此,大多数现有的工作只能支持有限的交互能力。在本文中,我们开发了Qwen-Audio模型,并通过扩大音频语言预训练的规模来解决这个限制,覆盖了30多个任务和各种音频类型,如人类语音、自然声音、音乐和歌曲,以促进通用音频理解能力。然而,直接对所有任务和数据集进行联合训练可能会导致干扰问题,因为不同数据集的文本标签由于任务重点、语言、注释粒度和文本结构的差异而展现出相当大的变化。为了克服一对多的干扰,我们通过在解码器上以一系列分层标签为条件来精心设计多任务训练框架,以鼓励知识共享并通过共享和指定标签来避免干扰。值得注意的是,Qwen-Audio在不需要任何任务特定微调的情况下,在各种基准任务上取得了令人印象深刻的表现,超越了其竞争对手。在Qwen-Audio的能力基础上,我们进一步开发了Qwen-Audio-Chat,它允许来自各种音频和文本输入的输入,实现多轮对话并支持各种音频中心场景。
  • 图表
  • 解决问题
    论文旨在解决缺乏能够处理各种音频类型和任务的预训练音频模型的问题,以便实现通用音频理解能力。这是一个相对新的问题。
  • 关键思路
    论文通过设计一种多任务训练框架,使用一系列分层标签来指导解码器,从而避免干扰问题,实现知识共享。Qwen-Audio模型在不需要特定任务微调的情况下,在各种基准任务上取得了出色的性能。
  • 其它亮点
    论文使用Qwen-Audio模型处理人类语音、自然声音、音乐和歌曲等各种音频类型,覆盖了30多个任务。实验结果表明,该模型在各种基准测试中表现出色,而且没有特定任务的微调。论文还开发了Qwen-Audio-Chat,支持多轮对话和各种音频中心场景。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《AudioBERT: A Robust and Effective Audio Pre-Training Method》、《SpeechBERT: A Speech Pre-Training Method with Self-supervised Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论