- 简介本报告介绍了xGen-MM(也称为BLIP-3),这是一个用于开发大型多模型(LMMs)的框架。该框架包括精心策划的数据集、训练配方、模型架构和一系列LMMs。xGen-MM,即xGen-MultiModal,扩展了Salesforce xGen在基础AI模型上的倡议。我们的模型在一系列任务中经过严格评估,包括单张和多张图像基准测试。我们的预训练基础模型展现出强大的上下文学习能力,指令调整模型在与类似模型尺寸的开源LMMs竞争中展现出竞争力。此外,我们引入了一个带有DPO的安全调整模型,旨在减轻诸如幻觉等有害行为并提高安全性。我们开源我们的模型、策划的大规模数据集和微调代码库,以促进LMM研究的进一步发展。相关资源将在我们的项目页面上提供。
- 图表
- 解决问题xGen-MM框架旨在解决大型多模态模型(LMMs)的开发问题,包括单图像和多图像任务。
- 关键思路xGen-MM提供了一个完整的框架,包括数据集、训练配方、模型架构和一系列LMMs,其中基础模型和调整模型都表现出了很强的性能。
- 其它亮点xGen-MM框架的亮点包括:使用大规模数据集进行训练,实现了强大的上下文学习能力;开源了模型、数据集和代码,促进了LMM研究的进一步发展;引入了安全调整模型,通过DPO减少了有害行为。
- 最近在LMM领域的相关研究包括:CLIP、ViLBERT、UNITER等。
沙发等你来抢
去评论
评论
沙发等你来抢