- 简介虽然当前大多数大型多模态模型已经能够理解自然场景和肖像照片,但它们对抽象图像(如图表、地图或布局)和视觉推理能力的理解仍然非常基础。它们常常在简单的日常任务中遇到困难,比如从时钟上读取时间、理解流程图或使用道路地图规划路线等。为此,我们设计了一个多模态自我指导系统,利用大型语言模型及其代码能力在日常场景中综合大量的抽象图像和视觉推理指令。我们的策略轻松地创建了一个多模态基准,包括八个视觉场景的11,193个指令:图表、表格、模拟地图、仪表盘、流程图、关系图、平面图和视觉难题。这个基准是用简单的线条和几何元素构建的,暴露了像Claude-3.5-Sonnet和GPT-4o这样的大多数先进的多模态模型在抽象图像理解、空间关系推理和视觉元素归纳方面的不足之处。此外,为了验证我们合成数据的质量,我们使用62,476个合成的图表、表格和道路地图指令对一个LMM进行了微调。结果表明,图表理解和地图导航性能有所提高,并且还展示了其他视觉推理任务的潜在好处。我们的代码可在以下网址找到:\url{https://github.com/zwq2018/Multi-modal-Self-instruct}。
-
- 图表
- 解决问题本论文旨在解决当前大型多模态模型在抽象图像理解、空间关系推理和视觉元素归纳等方面的局限性,并提出了一种基于自我指导的多模态方法来合成大规模抽象图像和视觉推理指令,以创建一个多模态基准测试。
- 关键思路本论文的关键思路是利用大型语言模型和其代码能力来合成大规模的抽象图像和视觉推理指令,以创建一个多模态基准测试,并通过这个测试揭示当前先进的大型多模态模型在抽象图像理解、空间关系推理和视觉元素归纳等方面的不足之处。
- 其它亮点本论文的亮点包括构建了一个由八个视觉场景组成的多模态基准测试,提出了一种基于自我指导的多模态方法来合成大规模抽象图像和视觉推理指令,通过对大量合成数据的 fine-tune,证明了该方法的有效性,并在实验中展示了该方法在图表理解和地图导航等任务中的潜在优势。此外,该论文提供了开源代码。
- 近期相关研究包括《Large-Scale Study of Curiosity-Driven Learning》、《Learning to Learn without Forgetting by Maximizing Transfer and Minimizing Interference》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流