- 简介人类绘图是为了辅助推理:在解决几何问题时,我们会画辅助线;在地图推理时,我们会标记和圈出;我们使用草图来扩大我们的想法并缓解我们有限的工作记忆。然而,这些行为在当前的多模态语言模型中缺失。当前的思维链和工具使用范式只使用文本作为中间推理步骤。在这项工作中,我们介绍了Sketchpad,这是一个框架,为多模态语言模型提供了一个视觉草图板和绘制草图的工具。语言模型根据其绘制的视觉工件进行规划和推理。与以往使用文本到图像模型使语言模型能够绘制的工作不同,Sketchpad使语言模型可以使用线条、框、标记等进行绘制,更接近人类的草图绘制,并更好地促进推理。Sketchpad还可以在绘图过程中使用专业的视觉模型(例如,使用对象检测模型绘制边界框,使用分割模型绘制掩码),以进一步增强视觉感知和推理。我们对广泛的数学任务(包括几何、函数、图形和棋类)和复杂的视觉推理任务进行了实验。Sketchpad在所有任务上都显著提高了性能,比没有草图的强基线模型平均提高了12.7%的数学任务和8.6%的视觉任务。带有Sketchpad的GPT-4o在所有任务上都创造了新的最高水平,包括V*Bench(80.3%)、BLINK空间推理(83.9%)和视觉对应(80.8%)。所有代码和数据都在https://visualsketchpad.github.io/中。
- 图表
- 解决问题在当前的多模态语言模型中,缺乏类似于人类画图辅助推理的功能。本文提出了Sketchpad框架,为多模态语言模型提供了可视化的画板和绘图工具,使其能够根据视觉图像进行规划和推理。
- 关键思路Sketchpad框架为多模态语言模型提供了绘图功能,使其更接近于人类的画图方式,从而更好地促进推理。同时,Sketchpad还可以使用专业的视觉模型来增强视觉感知和推理。
- 其它亮点本文在广泛的数学任务和复杂的视觉推理任务上进行了实验。Sketchpad在所有任务上都显著提高了性能,平均提高了12.7%的数学任务和8.6%的视觉任务。同时,本文提供了代码和数据集。
- 与本文相关的研究包括使用文本到图像模型来实现绘图功能的工作,以及使用视觉模型来增强视觉感知和推理的工作。
沙发等你来抢
去评论
评论
沙发等你来抢