Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring

2024年03月14日
  • 简介
    大型视觉语言模型已经实现了细粒度的物体感知,但是图像分辨率的限制仍然是超越特定任务专家在复杂和密集场景中表现的重要障碍。这种限制进一步限制了模型在GUI代理、计数等领域实现细微的视觉和语言引用的潜力。为了解决这个问题,我们引入了一个统一的高分辨率通用模型Griffon v2,可以通过视觉和文本提示实现灵活的物体引用。为了有效地扩展图像分辨率,我们设计了一个简单而轻量级的下采样投影仪,以克服大型语言模型中输入标记的限制。这种设计固有地保留了完整的上下文和细节,并显著提高了特别是小物体的多模态感知能力。在此基础上,我们进一步通过即插即用的视觉标记器使模型具备了视觉-语言共指能力。它使用户可以以自由形式的文本和坐标与灵活的目标图像进行友好的交互。实验表明,Griffon v2可以通过视觉和文本引用定位任何感兴趣的物体,在REC、短语接地和REG任务上实现最先进的性能,并在物体检测和物体计数方面优于专家模型。数据、代码和模型将在https://github.com/jefferyZhan/Griffon上发布。
  • 图表
  • 解决问题
    本论文旨在解决图像分辨率限制对于视觉和语言相互作用的影响,提出了一种高分辨率通用模型Griffon v2,以实现灵活的对象引用。
  • 关键思路
    该论文提出了一种简单且轻量级的下采样投影仪来有效扩展图像分辨率,从而克服大型语言模型中输入令牌的限制。同时,通过插入式视觉分词器,实现了视觉-语言共指能力,使模型能够与灵活的目标图像、自由形式文本甚至坐标进行交互。
  • 其它亮点
    该论文在REC、短语接地和REG任务中取得了最先进的性能,并在对象检测和对象计数方面优于专家模型。研究人员还开源了数据、代码和模型。
  • 相关研究
    在相关研究中,最近的一些论文包括:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论