Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search

2025年09月09日
  • 简介
    最近,大型多模态模型的进展利用基于图像的工具和强化学习来解决视觉问题。然而,现有的开源方法通常表现出单调的推理模式,并且只允许有限次数的交互,这使得它们难以胜任需要反复尝试的复杂任务。在本研究中,我们通过扩展基于工具的交互方式来解决这一局限,提出了Mini-o3系统,该系统能够执行深入的、多轮次的推理过程(可达数十步),并在具有挑战性的视觉搜索任务上实现了最先进的性能。 我们复现OpenAI o3风格行为的方法包含三个关键组成部分。首先,我们构建了“视觉探索数据集”(Visual Probe Dataset),其中包含数千个具有挑战性的视觉搜索问题,专为探索性推理而设计。其次,我们开发了一个迭代的数据收集流程,以获取展现多样化推理模式的冷启动轨迹,包括深度优先搜索、试错法和目标维持等策略。第三,我们提出了一种“超轮次掩码”策略,在强化学习过程中避免对达到最大交互次数的“超轮次”响应进行惩罚,从而在训练效率与测试时的可扩展性之间取得平衡。 尽管我们的模型在训练时设定了最多仅六轮的交互限制,但在推理阶段,它生成的推理轨迹能够自然地扩展到数十轮,且准确率随着轮次数的增加而提升。大量实验表明,Mini-o3能够生成丰富的推理模式和深入的思考路径,有效解决具有挑战性的视觉搜索问题。
  • 图表
  • 解决问题
    论文旨在解决当前开源多模态大模型在视觉问题求解中推理模式单一、交互轮次受限的问题,特别是在需要试错探索的复杂任务中表现不足。这是一个较为新颖的问题,尤其是在深度多轮推理与视觉搜索任务结合的领域。
  • 关键思路
    论文提出Mini-o3系统,通过扩展基于工具的交互,实现数十步的深层多轮推理。其关键创新包括:构建用于探索性推理的视觉探测数据集(Visual Probe Dataset),开发多样化的冷启动轨迹收集流程,以及提出过轮掩码策略(over-turn masking)以在强化学习中平衡训练效率与推理扩展性。
  • 其它亮点
    1. 构建了Visual Probe Dataset,包含数千个具有挑战性的视觉搜索问题,用于评估深层推理能力。 2. 开发了迭代式数据收集流程,生成具有多样化推理模式(如深度优先搜索、试错、目标保持)的冷启动轨迹。 3. 提出过轮掩码策略,避免强化学习中对达到最大交互轮次的响应进行惩罚。 4. 尽管训练时仅使用最多6轮交互,模型在推理时能自然扩展到数十轮,准确率随轮次增加而提升。 5. 实验结果显示Mini-o3在视觉搜索任务上表现优异,生成丰富的推理模式和深层思维路径。 6. 该研究为未来多轮视觉推理与基于工具的AI系统提供了新的方向和基础。
  • 相关研究
    1. OpenAI o3系列模型在视觉与多模态任务中的探索性推理机制 2. 近期强化学习与工具交互结合的研究,如‘Toolformer: Language Models Can Teach Themselves to Use Tools’ 3. 多模态预训练模型如Flamingo、KOSMOS-1在视觉-语言任务中的应用 4. 基于探索性搜索的AI系统研究,如AlphaGeometry在几何问题求解中的方法
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论