- 简介视觉编码是理解视觉世界的大型多模型模型(LMM)的基础。传统的LMM处理固定大小和有限分辨率的图像,而最近在这个方向的探索在适应性、效率甚至正确性方面都有限制。在这项工作中,我们首先以GPT-4V和LLaVA-1.5为代表性例子,揭示了它们的视觉编码策略中存在的系统性缺陷。为了解决这些挑战,我们提出了LLaVA-UHD,这是一个大型多模型模型,可以高效地感知任何长宽比和高分辨率的图像。LLaVA-UHD包括三个关键组件:(1)图像模块化策略,将原始分辨率图像分成更小的可变大小切片,以实现高效和可扩展的编码,(2)压缩模块,进一步压缩视觉编码器中的图像标记,(3)空间模式,以组织切片标记以供LLMs使用。全面的实验表明,LLaVA-UHD在9个基准测试中的表现优于使用2-3个数量级更多数据训练的已建立的LMM。值得注意的是,我们基于LLaVA-1.5 336x336构建的模型只使用94%的推理计算即可支持6倍更大(即672x1088)分辨率的图像,并在TextVQA上实现了6.4的准确性提高。此外,该模型可以在学术环境中高效地训练,在8个A100 GPU上仅需23个小时(而LLaVA-1.5需要26个小时)。我们在https://github.com/thunlp/LLaVA-UHD上公开了数据和代码。
-
- 图表
- 解决问题解决问题:论文旨在解决大型多模态模型在处理图像时固定大小和有限分辨率的问题,提出了一种高效灵活的图像编码策略。
- 关键思路关键思路:论文提出了LLaVA-UHD,一个可以高效地感知任何长宽比和高分辨率图像的大型多模态模型,包括三个关键组件。
- 其它亮点其他亮点:LLaVA-UHD在9个基准测试中表现优于已有的大型多模态模型,使用的数据量只有它们的2-3个数量级,同时可以在23小时内在8个A100 GPU上进行高效训练。研究者还公开了数据和代码。
- 相关研究:最近的相关研究包括GPT-4V和LLaVA-1.5,但这些模型存在系统性缺陷。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流