- 简介视觉扩展的LLMs在视觉问答(VQA)方面取得了重大进展。尽管存在这些进展,VLLMs在处理涉及长尾实体的查询时仍然遇到重大困难,往往会产生错误或幻觉的响应。在这项工作中,我们引入了一个新颖的评估基准,名为\textbf{SnapNTell},专门针对以实体为中心的VQA。这项任务旨在测试模型在识别实体和提供详细的实体特定知识方面的能力。我们开发了\textbf{SnapNTell数据集},不同于传统的VQA数据集:(1)它包含各种分类的实体,每个实体由图像表示并在答案中明确命名;(2)它具有需要广泛知识才能获得准确响应的QA对。该数据集分为22个主要类别,总共包含7,568个独特的实体。对于每个实体,我们精选了10个说明性图像,并制作了10个知识密集型的QA对。为了解决这个新颖的任务,我们设计了一个可扩展、高效和透明的检索增强的多模式LLM。我们的方法在SnapNTell数据集上明显优于现有方法,在BELURT分数上取得了66.5%的提高。我们将很快公开数据集和源代码。
- 图表
- 解决问题SnapNTell是一个新的评估基准,旨在测试VQA模型在识别实体并提供详细的实体特定知识方面的能力。论文试图解决VLLMs在处理长尾实体查询时产生错误或虚构响应的问题。
- 关键思路论文提出了一种可扩展,高效和透明的检索增强多模态LLM方法,用于解决SnapNTell任务。该方法显着优于现有方法,BELURT分数提高了66.5%。
- 其它亮点SnapNTell数据集包含22个主要类别,总共包含7,568个唯一实体。每个实体都有10个说明性图像和10个知识密集型QA对。论文的方法在SnapNTell数据集上表现出色。作者将公开数据集和源代码。
- 最近的相关研究主要集中在VQA方面,如GQA和CLEVR。
沙发等你来抢
去评论
评论
沙发等你来抢