LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding

2024年05月27日
  • 简介
    视觉定位是将用户提供的文本查询与图像中特定区域相连的重要工具。尽管视觉定位模型有所发展,但其理解复杂查询的能力仍然有限。为了克服这个限制,我们引入了LLM-Optic,这是一种创新的方法,利用大型语言模型(LLMs)作为光学镜头,增强现有的视觉定位模型,以理解涉及复杂文本结构、多个对象或对象空间关系的复杂文本查询,这些是当前模型难以处理的情况。LLM-Optic首先将LLM作为文本定位器来解释复杂的文本查询,并准确识别用户想要定位的对象。然后,使用预训练的视觉定位模型根据文本定位器的精炼查询生成候选边界框。之后,LLM-Optic用数字标记注释候选边界框,以建立文本和特定图像区域之间的连接,从而链接两种不同的模态。最后,它使用大型多模型(LMM)作为视觉定位器,选择最符合原始文本查询的标记候选对象。通过LLM-Optic,我们实现了通用的视觉定位,允许检测由任意人类语言输入指定的任意对象。重要的是,我们的方法实现了这种增强,而不需要额外的训练或微调。在各种具有挑战性的基准测试中进行的广泛实验表明,LLM-Optic实现了最先进的零样本视觉定位能力。 项目页面:https://haoyu-zhao.github.io/LLM-Optic.github.io/。
  • 解决问题
    本论文旨在提高视觉定位模型在理解复杂文本查询方面的能力,解决当前模型在理解涉及多个对象或对象空间关系的复杂查询时的局限性。
  • 关键思路
    该论文提出了一种创新方法LLM-Optic,利用大型语言模型作为光学镜头,增强现有的视觉定位模型,以理解涉及复杂文本结构的复杂查询,并在不需要额外训练或微调的情况下实现了通用视觉定位。
  • 其它亮点
    该论文的亮点包括使用LLM作为文本定位器和视觉定位器,使用数字标记将候选边界框与文本联系起来,实现了零样本视觉定位,并在多个基准测试中取得了最先进的结果。项目页面提供了代码和数据集。
  • 相关研究
    最近的相关研究包括使用语言模型进行视觉推理和语义分割,如《ViLBERT:预训练任务的联合多模态学习》和《基于多任务学习的语义分割》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论