Pixtral 12B

2024年10月09日
  • 简介
    我们介绍了Pixtral-12B,这是一个拥有120亿参数的多模态语言模型。Pixtral-12B被训练用于理解自然图像和文档,其在各种多模态基准测试上表现出领先的性能,超过了许多更大的模型。与许多开源模型不同,Pixtral也是一款尺寸先进的文本模型,并且在自然语言性能方面并不妥协,以在多模态任务中表现出色。Pixtral使用了一个从头开始训练的新视觉编码器,使其能够以自然分辨率和长宽比摄取图像。这为用户提供了在处理图像时使用的令牌数量的灵活性。Pixtral还能够在其长上下文窗口(128K个令牌)中处理任意数量的图像。Pixtral 12B的性能显著优于其他类似大小的开放模型(Llama-3.2 11B和Qwen-2-VL 7B)。它还在尺寸小7倍的情况下,优于许多更大的开放模型,如Llama-3.2 90B。我们进一步提供了一个开源基准测试MM-MT-Bench,用于评估实际情况下的视觉语言模型,并为多模态LLM的标准化评估协议提供了详细的分析和代码。Pixtral-12B在Apache 2.0许可下发布。
  • 作者讲解·2
  • 图表
  • 解决问题
    Pixtral-12B旨在解决多模态语言模型的问题,同时不牺牲自然语言性能。
  • 关键思路
    Pixtral-12B使用了一个新的视觉编码器,可以处理任意数量的图像,并且在多模态基准测试中表现出色。
  • 其它亮点
    Pixtral-12B是一个12亿参数的多模态语言模型,能够处理自然图像和文档,并在多个基准测试中表现出色。Pixtral-12B还提供了一个开源基准测试MM-MT-Bench,用于评估视觉语言模型的实际应用场景。
  • 相关研究
    类似规模的开源模型包括Llama-3.2 11B和Qwen-2-VL 7B,而Pixtral-12B在多模态任务中表现更好。此外,Pixtral-12B还比Llama-3.2 90B更小7倍,但表现更好。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问