- 简介近年来,多模态推理的进展在很大程度上得益于文本化的思维链(Chain-of-Thought, CoT)方法,这种范式让模型通过语言进行推理。然而,这种以文本为中心的方法将视觉信息视为静态的初始背景,导致了丰富的感知数据与离散的符号思维之间存在根本性的“语义鸿沟”。人类的认知往往超越语言,将视觉当作一种动态的心理草图工具。如今,人工智能领域也正在经历类似的演变,标志着一个根本性的范式转变:从仅仅对图像进行思考的模型,转向能够真正借助图像进行思考的模型。这一新兴范式的特点在于,模型将视觉信息作为其思维过程中的中间步骤,使视觉从被动的输入转变为可操作、可操控的认知工作空间。 本综述通过梳理智能逐步提升的认知自主性轨迹,描绘了这一演进过程,该轨迹涵盖了三个关键阶段:从外部工具的探索,到程序化的操作,再到内在的想象。为了系统地梳理这一快速发展的领域,我们的综述做出了四项核心贡献:(1)我们确立了“借助图像思考”这一范式的基础理念及其三阶段框架;(2)我们全面回顾了构成这一发展路径各阶段的核心方法;(3)我们分析了关键的评估基准和具有变革意义的应用场景;(4)我们指出了当前面临的重要挑战,并展望了未来有前景的研究方向。通过提供这一结构化的综述视角,我们旨在为构建更加强大且符合人类认知的多模态人工智能提供清晰的研究路线图。
- 图表
- 解决问题论文旨在解决多模态推理中视觉与语言之间的‘语义鸿沟’问题,即当前模型将视觉信息作为静态输入,无法像人类一样动态地利用图像进行中间推理。这是一个新兴且重要的问题,随着AI向更接近人类认知的方向发展,如何让模型真正‘用图像思考’成为研究焦点。
- 关键思路提出‘用图像思考’(think with image)的范式,将视觉信息从被动输入转变为可操作的认知工作空间,并构建一个三阶段的发展框架:外部工具探索、程序化操控、内在想象。这一思路强调视觉在推理链中的主动角色,标志着从文本为中心的思维向多模态协同思维的根本转变。
- 其它亮点{提出了系统性的三阶段认知演化框架,为未来研究提供清晰路线图,全面回顾了各阶段的核心方法与关键技术,分析了关键评估基准和变革性应用,揭示实际影响力,识别了当前挑战并指明未来方向,具有高度指导意义}
- {"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Wei et al., 2022)","Flamingo: a Visual Language Model for Few-Shot Learning (Alayrac et al., 2022)","Visual Thinking Through Differentiable Neuron-Architectures (Zhang et al., 2023)","Program of Thoughts: Compositional Reasoning with Neuro-Symbolic Program Execution (Chen et al., 2023)","In-context Learning with Analogical Reasoning on Vision-Language Models (Wang et al., 2024)"}
沙发等你来抢
去评论
评论
沙发等你来抢