- 简介大型语言模型在推理能力方面已经展现出显著的进步,特别是在推理时间扩展方面,例如OpenAI的o1模型就体现了这一点。然而,当前的视觉-语言模型(VLM)在进行系统性和结构化推理时往往遇到困难,尤其是在处理复杂的视觉问答任务时。在这项工作中,我们介绍了LLaVA-o1,这是一种新型的VLM,旨在进行自主多阶段推理。与链式思维提示不同,LLaVA-o1能够独立地进行总结、视觉解释、逻辑推理和结论生成等连续阶段。这种结构化的方法使LLaVA-o1在推理密集型任务中实现了显著的精度提升。为了实现这一目标,我们编制了LLaVA-o1-100k数据集,整合了来自各种视觉问答来源的样本,并提供了结构化的推理注释。此外,我们提出了一种推理时间阶段级别的束搜索方法,从而实现有效的推理时间扩展。值得注意的是,仅使用10万个训练样本和一种简单但有效的推理时间扩展方法,LLaVA-o1不仅在广泛的多模态推理基准测试中比其基础模型提高了8.9%,而且还超过了更大甚至封闭源代码模型(如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct)的性能。
- 图表
- 解决问题该论文旨在解决现有视觉-语言模型(VLMs)在处理复杂视觉问答任务时系统性和结构化推理能力不足的问题。这是一个相对新颖的问题,特别是在多阶段自主推理方面。
- 关键思路论文的关键思路是引入了一个名为LLaVA-o1的新VLM,该模型能够独立进行多阶段推理,包括总结、视觉解释、逻辑推理和结论生成。这一方法通过结构化的推理过程显著提高了模型在推理密集型任务中的精度。与现有的链式思维提示不同,LLaVA-o1能够在推理过程中自主地进行多个阶段的处理。
- 其它亮点论文的亮点包括:1) 编制了LLaVA-o1-100k数据集,整合了来自多种视觉问答来源的样本,并提供了结构化推理注释;2) 提出了一种推理时间阶段级别的束搜索方法,有效支持了推理时间的扩展;3) 实验结果显示,LLaVA-o1在多个多模态推理基准测试中不仅超越了其基础模型,还超过了更大甚至闭源的模型,如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。此外,论文提供了开源代码,便于其他研究者复现和进一步研究。
- 最近在这个领域中,还有一些相关的研究,例如:1)《VisualBERT: A Simple and Performant Baseline for Vision and Language》;2)《ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision》;3)《FLAVA: A Foundational Language And Vision Alignment Model》。这些研究都致力于提高视觉-语言模型的性能,但大多集中在模型架构或预训练方法上,而本论文则更侧重于推理过程的结构化和多阶段性。
沙发等你来抢
去评论
评论
沙发等你来抢