Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMs

2024年04月11日
  • 简介
    将大型语言模型(LLMs)整合到视觉领域任务中,形成视觉-LLMs(V-LLMs),已经在视觉问答(VQA)等视觉语言任务中实现了出色的性能。然而,现有的V-LLMs(例如BLIP-2、LLaVA)在空间推理和定位意识方面表现较弱。尽管它们生成了高度描述性和详细的文本答案,但这些模型在区分左右位置等简单任务上失败了。在这项工作中,我们探索了如何通过基于图像空间坐标的指令微调目标将空间意识注入V-LLMs中。我们发现了最佳的坐标表示、数据有效的指令微调目标和伪数据生成策略,从而提高了V-LLMs的空间意识。此外,我们的模型改进了图像和视频领域的VQA,减少了不必要的幻觉,并生成了更好的上下文对象描述。在涉及14个不同数据集的5个视觉语言任务的实验中,我们提出的框架明显提高了性能。
  • 图表
  • 解决问题
    本论文旨在解决现有的视觉-语言模型在空间推理和定位意识方面表现较弱的问题,探索如何通过基于图像空间坐标的fine-tuning目标注入空间意识到视觉-语言模型中。
  • 关键思路
    通过基于图像空间坐标的fine-tuning目标注入空间意识到视觉-语言模型中,以提高模型在视觉问答等任务中的表现。
  • 其它亮点
    论文提出的模型在5个视觉-语言任务中的14个数据集上进行了实验,实现了明显的性能提升。模型在图像和视频领域的视觉问答中表现出色,减少了不良幻觉,并生成了更好的上下文对象描述。此外,论文提出了数据有效的指令fine-tuning目标和伪数据生成策略,以生成最佳的坐标表示。
  • 相关研究
    在这个领域中,最近的相关研究包括:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论