Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

2024年04月19日
  • 简介
    我们介绍了Groma,这是一个具有基于场景的和精细的视觉感知能力的多模态大语言模型(MLLM)。除了整体图像理解外,Groma还擅长于区域级别的任务,如区域字幕和视觉定位。这些能力建立在本地化的视觉标记机制上,其中图像输入被分解为感兴趣的区域,随后被编码为区域标记。通过将区域标记整合到用户指令和模型响应中,我们无缝地使Groma能够理解用户指定的区域输入,并将其文本输出与图像联系起来。此外,为了增强Groma的基于场景的聊天能力,我们利用强大的GPT-4V和视觉提示技术策划了一个视觉上基础的指令数据集。与依赖于语言模型或外部模块进行定位的MLLM相比,Groma在标准的指称和定位基准测试中始终表现出优异的性能,突显了将定位嵌入图像标记化的优势。项目页面:https://groma-mllm.github.io/。
  • 图表
  • 解决问题
    Groma试图解决的问题是多模式大语言模型的局限性,即缺乏细粒度的视觉感知能力。它提出了一种局部视觉标记机制,通过将图像分解为感兴趣的区域并将其编码为区域标记,从而使其能够执行区域级任务,例如区域字幕和视觉定位。
  • 关键思路
    该论文的关键思路是将局部视觉标记机制嵌入到图像标记化中,从而使Groma能够理解用户指定的区域输入并将其文本输出与图像联系起来。
  • 其它亮点
    该论文的亮点包括:1.使用局部视觉标记机制实现区域级任务;2.通过将区域标记集成到用户指令和模型响应中,使Groma能够理解用户指定的区域输入并将其文本输出与图像联系起来;3.使用GPT-4V和视觉提示技术创建了一个视觉上扎根的指令数据集;4.在标准的参考和定位基准测试中,Groma始终表现出优异的性能。
  • 相关研究
    在这个领域中,还有一些相关的研究,例如:1. ViLBERT:A Pretrained Vision-and-Language Model for Natural Language Processing;2. LXMERT: Learning Cross-Modality Encoder Representations from Transformers;3. VisualBERT: A Simple and Performant Baseline for Vision and Language.
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论