Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models

2024年03月28日
  • 简介
    多模态大语言模型(MLLMs)的兴起,由于其在指令遵循和推理方面的突出能力,极大地推动了视觉推理领域的发展。然而,由于其非无损图像标记化的限制,大多数MLLMs在全面捕捉文本和物体细节方面存在不足,特别是在高分辨率图像中。为了解决这个问题,我们提出了P2G,一种新颖的框架,用于在MLLMs中插入和播放推理。具体而言,P2G利用MLLMs的工具使用潜力,利用专家代理来实现对图像关键视觉和文本对象的即时接地,从而通过多模态提示实现有意识的推理。我们进一步创建了P2GB,这是一个旨在评估MLLMs在具有挑战性的高分辨率图像中理解物体间关系和文本能力的基准。对视觉推理任务的全面实验证明了P2G的优越性。值得注意的是,P2G在P2GB上取得了与7B骨干的GPT-4V相当的性能。我们的工作凸显了推理插入和播放的潜力,并开辟了一种有前途的替代模型扩展的选择。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决多模态大语言模型(MLLMs)在高分辨率图像中捕捉文本和对象细节方面的局限性,提出了P2G框架用于在MLLMs中进行推理的插件式接地,并创建了P2GB基准来评估MLLMs在高分辨率图像中理解对象间关系和文本的能力。
  • 关键思路
    P2G框架利用MLLMs的工具使用潜力,利用专家代理实现对图像关键视觉和文本对象的即时接地,从而通过多模态提示实现有意识的推理。
  • 其它亮点
    论文进行了广泛的视觉推理任务实验,证明了P2G的优越性。值得注意的是,P2G在P2GB上实现了与7B背骨的GPT-4V相当的性能。作者还创建了P2GB基准,用于评估MLLMs在高分辨率图像中理解对象间关系和文本的能力。
  • 相关研究
    最近的相关研究包括:《Large-Scale Multimodal Pretraining for Dense Video Captioning》、《Multimodal Transformer for Unaligned Multimodal Language Sequences》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问