Voxtral

2025年07月17日
  • 简介
    我们推出了Voxtral Mini和Voxtral Small两款多模态音频聊天模型。Voxtral经过训练,能够理解语音音频和文本文档,在多种音频基准测试中表现出色,同时保持了强大的文本处理能力。Voxtral Small的性能优于多个闭源模型,且体积足够小,可以在本地运行。该模型拥有32K的上下文窗口,能够处理长达40分钟的音频文件以及长时间的多轮对话。此外,我们还贡献了三个用于评估语音理解模型在知识和问答任务方面表现的基准测试。两款Voxtral模型均采用Apache 2.0许可证发布。
  • 图表
  • 解决问题
    这篇论文主要探讨如何构建具备理解和处理多模态输入(包括语音和文本)的高效对话模型。目标是解决当前模型在语音处理和文本理解上的局限性,同时保持在本地设备上运行的能力。这个问题在多模态对话系统中是一个关键挑战,属于相对较新的研究方向。
  • 关键思路
    论文提出了一种新的多模态架构Voxtral,能够同时处理语音和文本输入,通过统一的模型设计实现了跨模态的理解。这种设计相比传统的单一模态模型或分离模态处理的模型更具创新性,通过32K的上下文窗口支持长对话和长时间音频的处理,同时保持了较小的模型规模以支持本地运行。
  • 其它亮点
    1. 推出了两个模型Voxtral Mini和Voxtral Small,后者在性能上超越了一些闭源模型。 2. 提出了32K的上下文窗口,支持处理长达40分钟的音频文件。 3. 贡献了三个用于评估语音理解模型的新基准测试。 4. 模型在Apache 2.0许可下发布,具有开源优势。 5. 实验设计涵盖了多样化的语音基准测试,验证了模型的多模态能力。
  • 相关研究
    1. 近期研究如Whisper(OpenAI)在语音识别领域取得了突破,但通常缺乏文本对话理解能力。 2. Google的Gemini和Meta的Llama系列在文本模态上表现优异,但多模态整合仍需探索。 3. 多模态模型如Flamingo(DeepMind)尝试整合视觉和文本,但未涵盖语音模态。 4. 近期论文《Speech Prompt Tuning for Multimodal Models》探索了语音作为提示输入的多模态模型微调方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论