- 简介当我们环顾四周并执行复杂任务时,我们如何看待和选择性地处理我们所看到的内容至关重要。然而,当前多模式LLMs(MLLMs)中缺乏这种视觉搜索机制,阻碍了它们集中注意力处理高分辨率和视觉拥挤的图像时重要的视觉细节。为了解决这个问题,我们介绍了V*,一种以LLM为指导的视觉搜索机制,利用LLMs中的世界知识进行高效的视觉查询。当与MLLM相结合时,这种机制增强了协作推理、情境理解和对特定视觉元素的精确定位。这种集成结果产生了一种新的MLLM元架构,名为Show,sEArch和TelL(SEAL)。我们进一步创建了V*Bench,一个专门设计用于评估MLLM在处理高分辨率图像和关注视觉细节方面能力的基准。我们的研究强调了将视觉搜索能力纳入多模式系统的必要性。该代码可在https://github.com/penghao-wu/vstar 上获得。
- 图表
- 解决问题论文旨在解决当前多模态LLMs在处理高分辨率和视觉密集图像时缺乏视觉搜索机制的问题,提出了一种新的LLM引导的视觉搜索机制V*,并将其与MLLM集成为一个新的元架构SEAL。
- 关键思路V*机制通过利用LLMs中的世界知识,实现高效的视觉查询,提高MLLM的协作推理、上下文理解和特定视觉元素的精确定位能力。
- 其它亮点论文提出了一个新的MLLM元架构SEAL,并创建了一个专门用于评估MLLM处理高分辨率图像和关注视觉细节能力的基准V*Bench。代码已经开源。
- 最近的相关研究包括:《Multimodal Transformer for Unaligned Multimodal Language Sequences》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
沙发等你来抢
去评论
评论
沙发等你来抢