本文提出了ViperGPT,这是一个将专门的视觉、语言、数学和逻辑功能编程组成的框架,用于复杂的视觉查询。ViperGPT能够连接视觉和语言方面的个别进展;它使它们能够显示出超出任何个别模型本身所能做到的能力。随着实现这些功能的模型不断改进, ViperGPT的结果也将继续同步改善。
ViperGPT: Visual Inference via Python Execution for Reasoning
Dídac Surís, Sachit Menon, Carl Vondrick
[Columbia University]
- 回答视觉查询是一项复杂的任务,需要视觉处理和推理。端到端模型是这项任务的主流方法,它没有明确区分这两者,限制了可解释性和概括性。学习模块化程序是一个很有前途的选择,但由于同时学习程序和模块的困难,已被证明具有挑战性。
- 本文介绍了ViperGPT,这是一个利用代码生成模型的框架,将视觉和语言模型组成子程序,为任何查询产生一个结果。
- ViperGPT利用一个提供的API来访问可用的模块,并通过生成Python代码来组合它们,然后再执行。这种简单的方法不需要进一步的训练,并在各种复杂的视觉任务中取得了最先进的结果。
https://arxiv.org/pdf/2303.08128.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢