Qwen2-Audio Technical Report

简介

我们介绍了Qwen-Audio的最新进展，一种名为Qwen2-Audio的大规模音频语言模型，它能够接受各种音频信号输入，并针对语音指令执行音频分析或直接文本响应。与复杂的分层标签不同，我们通过利用不同数据和任务的自然语言提示简化了预训练过程，并进一步扩大了数据量。我们提高了Qwen2-Audio的指令跟随能力，并实现了两种不同的音频交互模式，分别为语音聊天和音频分析。在语音聊天模式下，用户可以自由地与Qwen2-Audio进行语音交互，无需文本输入。在音频分析模式下，用户可以在交互过程中提供音频和文本指令进行分析。请注意，我们不使用任何系统提示来切换语音聊天和音频分析模式。Qwen2-Audio能够智能理解音频内容并遵循语音指令做出适当的响应。例如，在同时包含声音、多人对话和语音指令的音频片段中，Qwen2-Audio可以直接理解指令并对音频进行解释和响应。此外，DPO已经优化了模型的表现，提高了其事实性和符合期望的行为。根据AIR-Bench的评估结果，Qwen2-Audio在针对以音频为中心的指令跟随能力的测试中表现优于以前的SOTAs，如Gemini-1.5-pro。Qwen2-Audio是开源的，旨在促进多模态语言社区的发展。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

Qwen2-Audio是一种大规模的音频-语言模型，试图解决多模态语言交互中的音频理解和指令跟随问题。
关键思路

通过利用自然语言提示简化预训练过程，并扩大数据规模，Qwen2-Audio实现了指令跟随能力的提升，并实现了语音聊天和音频分析两种不同的交互模式。
其它亮点

该论文提出的Qwen2-Audio模型在AIR-Bench测试中表现优异，超越了之前的最佳模型Gemini-1.5-pro，论文还开源了代码，有助于推动多模态语言社区的发展。
相关研究

与该论文相关的研究包括Gemini-1.5-pro等之前的音频-语言模型，以及其他多模态语言交互的研究，如图像-语言模型等。

提问交流

提问交流