UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling

2024年08月09日
  • 简介
    研究人员已经付出了大量努力来扩展和改进视觉语言模型(VLM)的训练方法。然而,随着基准测试数量的不断增加,研究人员需要承担实现每个协议、承担相当大的计算成本以及理解所有这些基准测试如何转化为有意义的进展方向等沉重负担。为了促进对VLM进展的系统评估,我们引入了UniBench:一个统一的实现,涵盖了50多个VLM基准测试,涵盖了从物体识别到空间感知、计数等全面分类的能力范围。我们展示了UniBench的实用性,通过评估近60个公开可用的视觉语言模型,这些模型的训练规模高达12.8B个样本。我们发现,虽然扩展训练数据或模型规模可以提高许多视觉语言模型的能力,但对于推理或关系,扩展提供的好处很少。令人惊讶的是,我们还发现,今天最好的VLM在简单的数字识别和计数任务上表现不佳,例如MNIST,而更简单的网络可以解决这些任务。当规模不足时,我们发现更精确的干预措施,例如数据质量或定制化的学习目标,提供了更多的前景。对于从业者,我们还提供了有关选择适合特定应用的VLM的指导。最后,我们发布了一个易于运行的UniBench代码库,其中包括50多个基准测试和59个模型的比较,以及一个在单个GPU上5分钟内运行的精简、代表性的基准测试集。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决视觉语言模型(VLM)训练方法的评估问题,提出了UniBench,一个涵盖50多个VLM基准测试的统一实现。研究人员可以使用UniBench系统地评估不同模型的性能。
  • 关键思路
    UniBench是一个统一的实现,涵盖了50多个VLM基准测试,包括物体识别、空间感知、计数等方面,可以帮助研究人员系统地评估不同模型的性能。研究发现,尽管增加训练数据或模型大小可以提高许多VLM能力,但对于推理或关系而言,增加规模的效果很小。更精确的干预,如数据质量或定制的学习目标,可能更有前途。
  • 其它亮点
    实验评估了近60个公开可用的VLM模型,发现当前最好的VLM在简单的数字识别和计数任务上表现不佳。研究人员还提供了有关选择适当的VLM的指导,并发布了易于运行的UniBench代码库,其中包含50多个基准测试和59个模型的比较,以及一个在单个GPU上运行5分钟的简化、代表性的基准测试集。
  • 相关研究
    与本论文相关的研究包括视觉语言模型的训练方法和性能评估,以及图像识别、自然语言处理和计算机视觉等领域的相关研究。相关论文包括《Vision-Language Pre-training with Contrastive Cross-Modal Tasks》、《ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问