
近年来,大型多模态模型通过结合图像工具与强化学习,有效提升了视觉任务的处理能力。然而,现有开源方法普遍存在推理模式单一、交互轮次受限等问题,难以胜任需要反复试探的复杂视觉任务。
针对上述不足,本文通过构建视觉搜索数据、采集多样化冷启动推理轨迹并引入过长输出掩码策略,最终训练得到 Mini-o3 模型。实验结果表明,Mini-o3 能够在设置训练阶段至多六轮交互轮次的前提下,于推理阶段自然生成数十的多轮推理轨迹,准确率随推理轮次增加而提升。Mini-o3 具备了丰富的推理模式和深度思考能力,足以高效解决复杂视觉搜索问题。
李俊奕,香港大学计算与数据科学系博士一年级学生,就读于CVAIL实验室,导师为赵恒爽教授。主要研究方向为多模态智能体与强化学习,目前在字节跳动从事实习研究工作。

扫码报名参加活动

线上交流群

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢