- 简介信息以多种形式呈现。多模态本地化AI模型对于整合现实世界的信息并提供全面的理解至关重要。虽然存在专有的多模态本地化模型,但它们的缺乏开放性给采用和调整带来了障碍。为了填补这一空白,我们介绍了Aria,这是一个开放的多模态本地化模型,具有在多种多模态、语言和编码任务中的最佳性能。Aria是一个混合专家模型,每个视觉令牌和文本令牌分别具有3.9B和3.5B的激活参数。它优于Pixtral-12B和Llama3.2-11B,并在各种多模态任务中与最佳专有模型竞争。我们从头开始预训练Aria,遵循4个阶段的流程,逐步为模型提供语言理解、多模态理解、长上下文窗口和指令跟随等强大的能力。我们开源模型权重以及一个代码库,以便在现实世界的应用中轻松采用和调整Aria。
- 图表
- 解决问题本论文旨在解决多模态信息整合的问题,提出了一个开源的多模态原生AI模型Aria,并在多个多模态任务上展现了其卓越的性能。
- 关键思路Aria是一个混合专家模型,拥有3.9B和3.5B个激活参数,分别用于视觉和文本令牌。论文采用了一个四阶段的预训练流程,逐步赋予模型语言理解、多模态理解、长上下文窗口和指令跟随的强大能力。
- 其它亮点论文开源了Aria的模型权重以及代码库,方便应用和改进。Aria在多个多模态任务上表现优异,超过了Pixtral-12B和Llama3.2-11B,并且在各种多模态任务上与最佳专有模型竞争。论文还使用了多个数据集进行实验验证,证明了Aria的性能优越。
- 最近的相关研究包括:《Learning Transferable Visual Models From Natural Language Supervision》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
沙发等你来抢
去评论
评论
沙发等你来抢