Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models

向作者提问

NEW

简介

多模态大语言模型（MLLMs）的兴起，由于其在指令遵循和推理方面的突出能力，极大地推动了视觉推理领域的发展。然而，由于其非无损图像标记化的限制，大多数MLLMs在全面捕捉文本和物体细节方面存在不足，特别是在高分辨率图像中。为了解决这个问题，我们提出了P2G，一种新颖的框架，用于在MLLMs中插入和播放推理。具体而言，P2G利用MLLMs的工具使用潜力，利用专家代理来实现对图像关键视觉和文本对象的即时接地，从而通过多模态提示实现有意识的推理。我们进一步创建了P2GB，这是一个旨在评估MLLMs在具有挑战性的高分辨率图像中理解物体间关系和文本能力的基准。对视觉推理任务的全面实验证明了P2G的优越性。值得注意的是，P2G在P2GB上取得了与7B骨干的GPT-4V相当的性能。我们的工作凸显了推理插入和播放的潜力，并开辟了一种有前途的替代模型扩展的选择。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决多模态大语言模型（MLLMs）在高分辨率图像中捕捉文本和对象细节方面的局限性，提出了P2G框架用于在MLLMs中进行推理的插件式接地，并创建了P2GB基准来评估MLLMs在高分辨率图像中理解对象间关系和文本的能力。
关键思路

P2G框架利用MLLMs的工具使用潜力，利用专家代理实现对图像关键视觉和文本对象的即时接地，从而通过多模态提示实现有意识的推理。
其它亮点

论文进行了广泛的视觉推理任务实验，证明了P2G的优越性。值得注意的是，P2G在P2GB上实现了与7B背骨的GPT-4V相当的性能。作者还创建了P2GB基准，用于评估MLLMs在高分辨率图像中理解对象间关系和文本的能力。
相关研究

最近的相关研究包括：《Large-Scale Multimodal Pretraining for Dense Video Captioning》、《Multimodal Transformer for Unaligned Multimodal Language Sequences》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问