Columbia University | ViperGPT: 通过Python执行推理的可视化推理

CV

刘延龙 2023-03-15 10:00 分享

以下文章来源于arxiv.org

本文提出了ViperGPT，这是一个将专门的视觉、语言、数学和逻辑功能编程组成的框架，用于复杂的视觉查询。ViperGPT能够连接视觉和语言方面的个别进展；它使它们能够显示出超出任何个别模型本身所能做到的能力。随着实现这些功能的模型不断改进， ViperGPT的结果也将继续同步改善。

ViperGPT: Visual Inference via Python Execution for Reasoning

Dídac Surís, Sachit Menon, Carl Vondrick

[Columbia University]

回答视觉查询是一项复杂的任务，需要视觉处理和推理。端到端模型是这项任务的主流方法，它没有明确区分这两者，限制了可解释性和概括性。学习模块化程序是一个很有前途的选择，但由于同时学习程序和模块的困难，已被证明具有挑战性。
本文介绍了ViperGPT，这是一个利用代码生成模型的框架，将视觉和语言模型组成子程序，为任何查询产生一个结果。
ViperGPT利用一个提供的API来访问可用的模块，并通过生成Python代码来组合它们，然后再执行。这种简单的方法不需要进一步的训练，并在各种复杂的视觉任务中取得了最先进的结果。

https://arxiv.org/pdf/2303.08128.pdf

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

评论列表

沙发等你来抢

去评论