From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models

向作者提问

NEW

简介

多模态大语言模型（MLLMs）致力于实现对物理世界深刻而类人的理解与交互，但在获取信息（感知）和进行推理（认知）时，往往表现出浅层且不连贯的融合。这种脱节导致了一系列推理失误，其中以幻觉现象最为突出。总体而言，这些问题揭示了一个根本性挑战：能够处理像素并不等于能够构建出连贯且可信的内部世界模型。为系统性地剖析并应对这一挑战，本文提出了一种新颖且统一的分析框架：“从感知到认知”。我们将视觉-语言交互理解的复杂过程分解为两个相互依存的层次：感知，即准确提取视觉信息，并与文本指令实现细粒度对齐的基础能力；认知，则是建立在感知基础之上的高阶能力，表现为积极主动、多步骤、目标导向的推理，其核心在于形成一种动态的“观察—思考—验证”推理循环。基于这一框架，本文系统分析了当前MLLMs在这两个层次上存在的关键瓶颈，综述了旨在解决这些挑战的前沿方法，涵盖从增强底层视觉表征的技术到改进高层推理范式的各类方案。此外，我们还回顾了关键的评测基准，并指明了未来的研究方向。本综述旨在为研究社区提供一个清晰、结构化的视角，以深入理解当前MLLMs的内在局限，并为构建具备深度推理能力和真正世界理解能力的下一代模型指明前进路径。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

当前多模态大语言模型（MLLMs）在感知（视觉信息提取）与认知（推理能力）之间存在脱节，导致理解不连贯、推理失败（如幻觉现象），缺乏构建一致且可信的内部世界模型的能力。该问题揭示了‘能处理像素’并不等于‘能理解世界’的根本挑战。这是一个系统性、尚未被充分解决的核心问题。
关键思路

提出一个统一的分析框架——‘从感知到认知’，将多模态理解分解为两个层次：感知层（实现细粒度图文对齐）和认知层（构建动态的观察-思考-验证推理循环）。这一框架为诊断和改进MLLM提供了结构化视角，强调必须同时提升底层感知准确性和高层推理连贯性。
其它亮点

系统梳理了当前MLLM在感知与认知层面的关键瓶颈；综述了从增强视觉表征到改进推理范式的前沿方法；评估了关键基准并指明未来方向；论文本身未提出新模型，但提供了极具指导意义的理论框架。实验设计为全面调研，涵盖多个主流数据集（如VQA-v2, GQA, NOPE, POPE等），文中提及的方法部分开源。值得深入研究的方向包括：可验证的推理机制、具身交互学习、因果建模与世界模型构建。
相关研究

1. Flamingo: a Visual Language Model for Few-Shot Learning 2. PaLM-E: An Embodied Multimodal Language Model 3. LLaVA: Large Language and Vision Assistant 4. Qwen-VL: A Versatile Vision-Language Model for Understanding and Reasoning 5. CogVLM: An E2E Multimodal Model with Powerful Vision-Centric Reasoning

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问