LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding

向作者提问

NEW

简介

视觉定位是将用户提供的文本查询与图像内的查询特定区域联系起来的重要工具。尽管视觉定位模型已经有所发展，但它们理解复杂查询的能力仍然有限。为了克服这个限制，我们引入了LLM-Optic，这是一种创新的方法，利用大型语言模型（LLMs）作为光学镜头，增强现有的视觉定位模型，以理解涉及复杂文本结构、多个对象或对象空间关系的复杂文本查询，这是当前模型难以处理的情况。LLM-Optic首先将LLM作为文本定位器，解释复杂的文本查询，并准确识别用户想要定位的对象。然后，使用预训练的视觉定位模型，根据文本定位器提供的精炼查询生成候选边界框。之后，LLM-Optic使用数字标记注释候选边界框，以建立文本和特定图像区域之间的联系，从而链接两种不同的模态。最后，它使用大型多模型（LMM）作为视觉定位器，选择最符合原始文本查询的标记候选对象。通过LLM-Optic，我们实现了通用的视觉定位，可以检测任意由任意人类语言输入指定的对象。重要的是，我们的方法在不需要额外训练或微调的情况下实现了这种增强。在各种具有挑战性的基准测试中进行了广泛的实验，证明LLM-Optic实现了最先进的零样本视觉定位能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决视觉定位模型对于复杂查询的理解能力有限的问题，提出了一种利用大语言模型（LLM）作为光学镜头来增强现有视觉定位模型的方法。
关键思路

LLM-Optic方法首先利用LLM作为文本定位器来解释复杂的文本查询并准确识别用户想要定位的对象，然后使用预训练的视觉定位模型生成候选边界框，接着LLM-Optic使用数字标记注释候选边界框以建立文本和特定图像区域之间的联系，最后利用大型多模型（LMM）作为视觉定位器来选择最符合原始文本查询的标记候选对象。
其它亮点

LLM-Optic实现了通用视觉定位，可以检测由任意人类语言输入指定的任意对象。此外，该方法无需额外的训练或微调即可实现增强，实验结果表明，LLM-Optic具有最先进的零样本视觉定位能力。
相关研究

近年来，视觉定位领域的相关研究包括：《Learning to Navigate the Web》、《Learning to Compose Neural Networks for Question Answering》、《Visual7W: Grounded Question Answering in Images》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问