OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

简介

当前的通用分割方法在像素级图像和视频理解方面表现出强大的能力。然而，它们缺乏推理能力，不能通过文本指令进行控制。相比之下，大型视觉语言多模型展现出强大的基于视觉的对话和推理能力，但缺乏像素级理解，并且难以接受用于灵活用户交互的视觉提示。本文提出了OMG-LLaVA，这是一个新颖而优雅的框架，将强大的像素级视觉理解与推理能力相结合。它可以接受各种视觉和文本提示以进行灵活的用户交互。具体而言，我们使用通用分割方法作为视觉编码器，将图像信息、感知先验和视觉提示集成为提供给LLM的视觉令牌。LLM负责理解用户的文本指令，并基于视觉信息提供文本响应和像素级分割结果。我们提出了感知先验嵌入来更好地将感知先验与图像特征结合起来。OMG-LLaVA在单个模型中实现了图像级、对象级和像素级推理和理解，与多个基准测试的专门方法的性能相匹配或超越。我们的工作旨在使用一个编码器、一个解码器和一个LLM进行端到端训练，而不是使用LLM连接每个专家。代码和模型已发布供进一步研究使用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种新的框架OMG-LLaVA，将像素级视觉理解与推理能力相结合，以接受各种视觉和文本提示以实现灵活的用户交互。
关键思路

论文提出使用通用分割方法作为视觉编码器，将图像信息、感知先验和视觉提示集成为提供给LLM的视觉令牌，实现用户文本指令的理解和提供基于视觉信息的文本响应和像素级分割结果。
其它亮点

OMG-LLaVA在单个模型中实现了图像级、对象级和像素级推理和理解，匹配或超过多个基准测试的性能。论文提出感知先验嵌入以更好地将感知先验与图像特征集成。代码和模型已经发布以供进一步研究。
相关研究

相关研究包括：1）基于像素的图像分割方法；2）大型视觉语言多模型模型。

OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

提问交流

提问交流