- 简介多模态推理需要语言与视觉之间的迭代协调,但究竟什么是具有意义的交错式思维链,目前仍不清楚。我们认为,文本与图像的思考应当发挥互补作用,而非彼此同构,二者应相互促进推理过程。基于这一原则,我们构建了ThinkMorph——一个在24,000条高质量交错推理轨迹上微调而成的统一模型,这些轨迹涵盖多种视觉参与程度不同的任务。ThinkMorph能够生成逐步推进的图文推理步骤,在具体操作视觉内容的同时保持连贯的语言逻辑。该模型在以视觉为核心的基准测试中表现显著提升(平均超过基础模型34.7%),并能泛化至域外任务,性能达到甚至超越更大规模和专有的视觉语言模型。除了性能优势,ThinkMorph还展现出新兴的多模态智能特性,包括对未见过的视觉操作技能的掌握、在不同推理模式间的自适应切换,以及通过多样化的多模态思维实现更好的测试时扩展性。这些发现为刻画统一模型在多模态推理中涌现出的能力提供了富有前景的研究方向。
-
- 图表
- 解决问题论文试图解决多模态推理中语言与视觉模态之间缺乏有意义交错思维链(chain-of-thought)的问题,特别是当前多数方法将文本和图像思维视为同构而非互补的模态,导致推理过程不够协同和深入。该问题在统一模型中尚未被充分探索,尤其在需要动态视觉参与的任务中表现明显。
- 关键思路提出ThinkMorph,一个基于高质量交错推理轨迹微调的统一多模态模型,其核心思想是让文本与图像思维作为互补模态相互推动:文本保持逻辑连贯性,图像则具体操作视觉内容,形成渐进式、双向增强的推理链条。相比现有工作,该方法强调非对称但协作的跨模态思维演进,而非简单交替输出。
- 其它亮点构建了包含24K条高质量交错推理路径的数据集,覆盖多种视觉参与程度的任务;ThinkMorph在视觉主导基准上平均超越基线34.7%,并在域外任务上媲美更大或专有VLM;展现出涌现能力如未见的视觉操作技能、自适应推理模式切换及测试时多样化思维带来的性能提升;代码与数据有望开源,为后续研究提供基础。
- 1. Flamingo: Visual Language Models for Few-Shot Learning 2. PaLM-E: An Embodied Multimodal Language Model 3. KOSMOS-1: Multimodal Foundation Models from Pixels 4. LLaVA: Large Language and Vision Assistant 5. Qwen-VL: A Vision-Language Model with Strong Reasoning Ability
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流