GROUNDHOG: Grounding Large Language Models to Holistic Segmentation

2024年02月26日
  • 简介
    大多数多模态大语言模型(MLLMs)通过因果语言建模学习语言到对象的基础,其中通过边界框作为位置标记序列捕获基础对象。这种范式缺乏对细粒度视觉理解和诊断重要的像素级表示。在这项工作中,我们介绍了GROUNDHOG,一种将大型语言模型与整体分割相结合的MLLM,通过引入掩码特征提取器并将提取的特征转换为MLLM骨干的视觉实体标记,然后通过检索和合并实体掩码将可基础短语连接到统一的基础掩码。为了训练GROUNDHOG,我们精心策划了M3G2,这是一个具有多模态多粒度基础的基于分割的视觉指令调整数据集,通过收集具有丰富注释的分割基础数据集。我们的实验结果表明,GROUNDHOG在各种语言基础任务上实现了卓越的性能,而无需特定于任务的微调,并显著减少了对象幻象。GROUNDHOG还表现出更好的针对复杂形式的视觉输入的基础,并在失败案例中提供易于理解的诊断。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决现有多模态大语言模型(MLLMs)在语言-物体基础上缺乏像素级表示的问题,提出了一种新的基于全局分割的Grounding方法。
  • 关键思路
    GROUNDHOG是一种基于全局分割的MLLM,它通过遮蔽特征提取器并将提取的特征转换为视觉实体令牌,然后通过检索和合并实体掩码来将可接地短语连接到统一的接地掩码。为了训练GROUNDHOG,作者设计了一个新的数据集M3G2,它是一个具有多模态多粒度接地的接地视觉指令调整数据集,由多个带有丰富注释的分割接地数据集组成。
  • 其它亮点
    本文提出的GROUNDHOG方法在各种语言接地任务中取得了优异的表现,并显著减少了物体幻觉。此外,GROUNDHOG还展示了更好的接地能力,提供了易于理解的失败案例诊断。作者还开源了M3G2数据集和GROUNDHOG代码。
  • 相关研究
    与本文相关的研究包括使用不同方法进行语言-物体接地的先前工作,例如使用视觉注意力机制,使用视觉实体令牌等。相关论文包括《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》和《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问