NEW

Pixtral 12B

Pravesh Agrawal ,

Szymon Antoniak ,

Emma Bou Hanna ,

Devendra Chaplot ,

Jessica Chudnovsky ,

Saurabh Garg ,

Theophile Gervet ,

Soham Ghosh ,

Amélie Héliou ,

Paul Jacob ,

Albert Q. Jiang ,

Timothée Lacroix ,

Guillaume Lample ,

Diego Las Casas ,

Thibaut Lavril ,

Teven Le Scao ,

Andy Lo ,

William Marshall ,

Louis Martin ,

Arthur Mensch ,

Pavankumar Muddireddy ,

Valera Nemychnikova ,

Marie Pellat ,

Patrick Von Platen ,

Nikhil Raghuraman ,

Baptiste Rozière ,

Alexandre Sablayrolles ,

Lucile Saulnier ,

Romain Sauvestre ,

Wendy Shang ,

Roman Soletskyi ,

Lawrence Stewart ,

Pierre Stock ,

Joachim Studnia ,

Sandeep Subramanian ,

Sagar Vaze ,

Thomas Wang

热度 2697

2024年10月09日

简介

我们介绍了Pixtral-12B，这是一个拥有120亿参数的多模态语言模型。Pixtral-12B被训练用于理解自然图像和文档，其在各种多模态基准测试上表现出领先的性能，超过了许多更大的模型。与许多开源模型不同，Pixtral也是一款尺寸先进的文本模型，并且在自然语言性能方面并不妥协，以在多模态任务中表现出色。Pixtral使用了一个从头开始训练的新视觉编码器，使其能够以自然分辨率和长宽比摄取图像。这为用户提供了在处理图像时使用的令牌数量的灵活性。Pixtral还能够在其长上下文窗口（128K个令牌）中处理任意数量的图像。Pixtral 12B的性能显著优于其他类似大小的开放模型（Llama-3.2 11B和Qwen-2-VL 7B）。它还在尺寸小7倍的情况下，优于许多更大的开放模型，如Llama-3.2 90B。我们进一步提供了一个开源基准测试MM-MT-Bench，用于评估实际情况下的视觉语言模型，并为多模态LLM的标准化评估协议提供了详细的分析和代码。Pixtral-12B在Apache 2.0许可下发布。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

Pixtral-12B旨在解决多模态语言模型的问题，同时不牺牲自然语言性能。
关键思路

Pixtral-12B使用了一个新的视觉编码器，可以处理任意数量的图像，并且在多模态基准测试中表现出色。
其它亮点

Pixtral-12B是一个12亿参数的多模态语言模型，能够处理自然图像和文档，并在多个基准测试中表现出色。Pixtral-12B还提供了一个开源基准测试MM-MT-Bench，用于评估视觉语言模型的实际应用场景。
相关研究

类似规模的开源模型包括Llama-3.2 11B和Qwen-2-VL 7B，而Pixtral-12B在多模态任务中表现更好。此外，Pixtral-12B还比Llama-3.2 90B更小7倍，但表现更好。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问