- 简介大型多模型(LMMs)在视觉理解和推理方面取得了令人瞩目的成功,显著提高了视觉环境下数学推理的性能。然而,多模式图论问题是一种具有挑战性的视觉数学问题,它要求LMMs准确理解图形结构并在视觉图形上执行多步推理。此外,探索多模式图论问题将导致在生物学、交通和机器人规划等领域中更有效的策略。为了朝着这个方向迈进,我们首次设计了一个名为VisionGraph的基准,用于探索高级LMMs在解决多模式图论问题方面的能力。它包括八个复杂的图问题任务,从连通性到最短路径问题。随后,我们提出了一种描述-程序-推理(DPR)链,通过图形结构描述生成和算法感知的多步推理,增强了推理过程的逻辑准确性。我们的广泛研究表明:1)GPT-4V在多步图推理方面优于Gemini Pro;2)所有LMMs在零/少样本设置或有监督的微调(SFT)中对图形结构的感知准确性都较差,这进一步影响了问题解决的性能;3)DPR显著提高了LMMs的多步图推理能力,GPT-4V(DPR)代理实现了SOTA表现。
-
- 图表
- 解决问题多模态图论问题中的多步推理:VisionGraph基准和描述-程序-推理链
- 关键思路使用描述-程序-推理(DPR)链来提高LMMs的多步图形推理能力,并通过VisionGraph基准测试多模态图论问题的解决方案。
- 其它亮点论文设计了一个名为VisionGraph的基准,包含8个复杂的图形问题任务,从连通性到最短路径问题。使用描述-程序-推理(DPR)链来提高LMMs的多步图形推理能力,GPT-4V(DPR)代理实现了最佳性能。实验结果表明,所有LMMs在图形结构的感知精度方面都表现出较低的准确性,无论是在零/少样本设置中还是在受监督的微调(SFT)中,这进一步影响了问题解决的性能。
- 最近的相关研究包括:《GNNs for Multi-Modal Reasoning》、《Graph Reasoning Networks》、《Neural Relational Inference for Interacting Systems》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流