Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models

向作者提问

NEW

简介

最近，Chain-of-Thought（CoT）和相关的基于推理的工作显著提高了大型语言模型（LLMs）在复杂推理任务中的性能。随着多模态大型语言模型（MLLMs）的发展，增强它们处理复杂多模态推理问题的能力是一个重要的前沿。然而，在CoT中引入多模态推理尚未得到彻底的研究。我们提出了Image-of-Thought（IoT）提示方法，帮助MLLMs逐步提取视觉推理。具体来说，IoT提示可以基于输入的图像和问题自动设计关键的视觉信息提取操作。每个视觉信息细化步骤都会识别出支持复杂视觉推理问题答案的特定视觉推理。除了文本CoT，IoT同时利用视觉和文本推理，帮助MLLMs理解复杂的多模态信息。IoT提示已经改善了不同MLLMs中各种视觉理解任务的零-shot视觉推理性能。此外，IoT提示生成的逐步视觉特征解释阐明了视觉推理过程，有助于分析大型多模态模型的认知过程。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在探究如何在Multimodal Large Language Models（MLLMs）中引入多模态证明（multimodal rationales），以提高它们在复杂多模态推理问题上的表现。这是一个新的问题。
关键思路

论文提出了Image-of-Thought（IoT）提示方法，该方法可帮助MLLMs逐步提取视觉证明。IoT提示可以根据输入的图像和问题自动设计关键的视觉信息提取操作。每个视觉信息细化步骤都可以确定支持复杂视觉推理问题答案的具体视觉证明。IoT同时利用视觉和文本证明，帮助MLLMs理解复杂的多模态信息。
其它亮点

论文使用了多个数据集，并在不同的MLLMs上改善了零样本视觉推理性能。IoT提示生成的逐步视觉特征解释有助于分析大型多模态模型的认知过程。
相关研究

最近在这个领域中，有一些相关的研究，如：《A Survey on Multimodal Machine Learning》、《Visual Reasoning with Multi-hop Feature Modulation》、《Multimodal Transformer for Unaligned Multimodal Language Sequences》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问