Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision

2023年09月25日
  • 简介
    多模态大语言模型(MLLMs)的快速演进促使计算机视觉从专门的模型转向通用的基础模型。然而,在评估MLLMs在低级视觉感知和理解方面的能力方面仍存在不足。为了解决这一问题,我们提出了Q-Bench,这是一个综合性基准,旨在系统地评估MLLMs在三个领域的潜在能力:低级视觉感知、低级视觉描述和整体视觉质量评估。为了评估低级感知能力,我们构建了LLVisionQA数据集,包括2990个来源不同的图像,每个图像都配有一个人类提出的问题,重点关注其低级属性。然后我们测量MLLMs回答这些问题的正确性。为了检查MLLMs在低级信息的描述能力,我们提出了LLDescribe数据集,其中包含499个图像的长专家标注的黄金低级文本描述,以及一个基于GPT的比较管道,用于比较MLLMs的输出和黄金描述。除了这两个任务之外,我们还进一步衡量它们的视觉质量评估能力,以与人类意见得分保持一致。具体而言,我们设计了一种基于softmax的策略,使MLLMs能够预测可量化的质量得分,并在各种现有的图像质量评估(IQA)数据集上对它们进行评估。我们对这三种能力的评估证实了MLLMs具有初步的低级视觉技能。然而,这些技能仍然不稳定且相对不精确,表明需要针对这些能力对MLLMs进行特定的增强。我们希望我们的基准可以鼓励研究社区深入挖掘和增强MLLMs的这些未开发的潜力。项目页面:https://q-future.github.io/Q-Bench。
  • 作者讲解
  • 图表
  • 解决问题
    评估Multi-modality Large Language Models(MLLMs)在低级视觉感知和理解方面的能力不足,需要一个综合的基准测试来评估其能力。
  • 关键思路
    提出了Q-Bench综合基准测试,包括LLVisionQA数据集和LLDescribe数据集,分别用于评估MLLMs的低级视觉感知和描述能力,同时还使用softmax策略评估其视觉质量评估能力。
  • 其它亮点
    通过实验发现,MLLMs具有初步的低级视觉技能,但这些技能仍然不稳定且相对不精确,需要进一步的改进。该基准测试可以鼓励研究人员深入探索和提高MLLMs的这些潜力。
  • 相关研究
    最近的相关研究包括:1)ViLBERT:A Pretrained Vision-and-Language Model for Multi-Modal Learning,2)VisualBERT: A Simple and Performant Baseline for Vision and Language,3)LayoutLMv2: Multi-modal Pre-training for Visually Rich Document Understanding
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问