Qwen2.5-Omni Technical Report

2025年03月26日
  • 简介
    在本报告中,我们介绍了通义千问2.5-Omni(Qwen2.5-Omni),这是一款端到端的多模态模型,设计用于感知包括文本、图像、音频和视频在内的多种模态信息,同时以流式方式生成文本和自然语音响应。为了实现多模态信息输入的流式处理,音频和视觉编码器均采用了分块处理的方法。为同步视频输入与音频的时间戳,我们将音频和视频按交错顺序排列,并提出了一种新的位置编码方法——TMRoPE(时间对齐多模态RoPE)。为了同时生成文本和语音并避免两者之间的干扰,我们提出了**思考者-说话者**(Thinker-Talker)架构。在此框架下,思考者作为一个大型语言模型负责文本生成,而说话者是一个双轨自回归模型,直接利用思考者的隐藏表示来生成音频标记作为输出。思考者和说话者模型均被设计为可以端到端地进行训练和推理。为了以流式方式解码音频标记,我们引入了一种滑动窗口的DiT,通过限制感受野来减少初始包延迟。通义千问2.5-Omni的性能与同规模的通义千问2.5-VL相当,并且优于通义千问2-Audio。此外,通义千问2.5-Omni在如Omni-Bench等多模态基准测试中取得了最先进的表现。值得注意的是,通义千问2.5-Omni在端到端语音指令跟随任务中的表现与其在文本输入下的能力相当,这一点已在MMLU和GSM8K等基准测试中得到验证。至于语音生成方面,通义千问2.5-Omni的流式说话者在鲁棒性和自然度上超越了大多数现有的流式和非流式方案。
  • 作者讲解
  • 图表
  • 解决问题
    该论文试图解决多模态信息的实时处理与生成问题,特别是在文本、图像、音频和视频等多种模态输入下,如何实现同步生成自然语言文本和语音输出。这是一个具有挑战性的问题,尤其是在保持不同模态之间的时间对齐和避免干扰方面。
  • 关键思路
    论文提出了一种名为Qwen2.5-Omni的端到端多模态模型,其核心创新包括:1) 使用块状处理方法(block-wise processing)来支持音频和视觉输入的流式处理;2) 提出TMRoPE(Time-aligned Multimodal RoPE)位置嵌入方法以实现视频和音频的时间戳同步;3) 设计了Thinker-Talker架构,其中Thinker负责文本生成,Talker基于Thinker的隐藏表示直接生成音频令牌,从而避免模态间的干扰。这种架构支持同时训练和推理,解决了多模态生成中的关键难题。
  • 其它亮点
    论文在多个方面表现出色:1) 在Omni-Bench等多模态基准测试中取得了最先进的性能;2) 在端到端语音指令跟随任务上的表现与文本输入相当,验证了模型的通用性;3) 提出了滑动窗口DiT技术以减少音频解码的初始延迟,增强了实时性;4) 模型在鲁棒性和自然度上优于大多数现有的流式和非流式语音生成方法。此外,论文可能涉及开源代码和详细实验设计,值得进一步研究方向包括更复杂的多模态场景和跨语言支持。
  • 相关研究
    近期相关研究包括:1) Qwen2.5-VL 和 Qwen2-Audio,分别专注于视觉-语言和音频任务,为Qwen2.5-Omni提供了基础比较;2) CLIP、Flamingo等多模态预训练模型,在视觉与语言结合方面取得显著进展;3) Whisper和VALL-E等语音生成模型,专注于高质量语音合成;4) LLaVA和M6等大规模多模态模型,探索了更大规模参数量下的多模态理解与生成能力。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问