LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

简介

视觉编码是理解视觉世界的大型多模型模型（LMM）的基础。传统的LMM处理固定大小和有限分辨率的图像，而最近在这个方向的探索在适应性、效率甚至正确性方面都有限制。在这项工作中，我们首先以GPT-4V和LLaVA-1.5为代表性例子，揭示了它们的视觉编码策略中存在的系统性缺陷。为了解决这些挑战，我们提出了LLaVA-UHD，这是一个大型多模型模型，可以高效地感知任何长宽比和高分辨率的图像。LLaVA-UHD包括三个关键组件：（1）图像模块化策略，将原始分辨率图像分成更小的可变大小切片，以实现高效和可扩展的编码，（2）压缩模块，进一步压缩视觉编码器中的图像标记，（3）空间模式，以组织切片标记以供LLMs使用。全面的实验表明，LLaVA-UHD在9个基准测试中的表现优于使用2-3个数量级更多数据训练的已建立的LMM。值得注意的是，我们基于LLaVA-1.5 336x336构建的模型只使用94％的推理计算即可支持6倍更大（即672x1088）分辨率的图像，并在TextVQA上实现了6.4的准确性提高。此外，该模型可以在学术环境中高效地训练，在8个A100 GPU上仅需23个小时（而LLaVA-1.5需要26个小时）。我们在https://github.com/thunlp/LLaVA-UHD上公开了数据和代码。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

解决问题：论文旨在解决大型多模态模型在处理图像时固定大小和有限分辨率的问题，提出了一种高效灵活的图像编码策略。

关键思路

关键思路：论文提出了LLaVA-UHD，一个可以高效地感知任何长宽比和高分辨率图像的大型多模态模型，包括三个关键组件。

其它亮点

其他亮点：LLaVA-UHD在9个基准测试中表现优于已有的大型多模态模型，使用的数据量只有它们的2-3个数量级，同时可以在23小时内在8个A100 GPU上进行高效训练。研究者还公开了数据和代码。

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

提问交流

提问交流