VHELM: A Holistic Evaluation of Vision Language Models

Tony Lee ,
Haoqin Tu ,
Chi Heem Wong ,
Wenhao Zheng ,
Yiyang Zhou ,
Yifan Mai ,
Josselin Somerville Roberts ,
Michihiro Yasunaga ,
Huaxiu Yao ,
Cihang Xie ,
Percy Liang
2024年10月09日
  • 简介
    目前评估视觉语言模型(VLMs)的基准往往集中在它们的感知或解决问题的能力上,而忽略了其他关键方面,如公平性、多语言性或毒性。此外,它们在评估程序和评估范围上存在差异,使得比较模型变得困难。为了解决这些问题,我们扩展了HELM框架到VLMs,提出了视觉语言模型的全面评估(VHELM)。VHELM聚合了各种数据集,涵盖了9个方面:视觉感知、知识、推理、偏见、公平性、多语言性、鲁棒性、毒性和安全性。通过这样做,我们提供了一个跨越这些重要因素的综合性、多维度的VLMs能力视图。此外,我们标准化了标准推理参数、提示方法和评估指标,以实现模型之间的公平比较。我们的框架设计轻量化和自动化,以便评估运行便宜快速。我们的初步运行评估了22个VLMs在21个现有数据集上,以提供模型的全面快照。我们发现了新的关键发现,例如,聚焦于效率的模型(例如,Claude 3 Haiku或Gemini 1.5 Flash)在偏见基准测试中表现显著劣于它们的完整模型(例如,Claude 3 Opus或Gemini 1.5 Pro),但在评估其他方面时则不然。为了透明度,我们在我们的网站上发布了原始模型生成和完整结果(https://crfm.stanford.edu/helm/vhelm/v2.0.1)。VHELM旨在成为一个活跃的基准,我们希望随着时间的推移继续添加新的数据集和模型。
  • 图表
  • 解决问题
    综合评估视觉语言模型的各种能力,包括公平性、多语言性和毒性等方面的评估方法和指标不统一,难以比较不同模型的表现。本文提出了一种名为VHELM的综合评估框架,通过聚合多个数据集,涵盖视觉感知、知识、推理、偏见、公平性、多语言性、鲁棒性、毒性和安全等9个方面,对VLMs进行全面、多维度的评估。
  • 关键思路
    本文提出了一种名为VHELM的综合评估框架,通过聚合多个数据集,涵盖视觉感知、知识、推理、偏见、公平性、多语言性、鲁棒性、毒性和安全等9个方面,对VLMs进行全面、多维度的评估。通过标准化推理参数、提示方法和评估指标,实现了模型之间的公平比较。
  • 其它亮点
    本文设计了一个轻量级、自动化的评估框架,可以快速、廉价地进行评估。通过对22个VLMs在21个数据集上的评估,发现效率型模型在偏见方面表现显著差于全模型,但在其他方面评估结果相当。作者公开了原始模型生成和完整结果。该框架是一个活跃的评估标准,作者希望可以不断添加新的数据集和模型。
  • 相关研究
    最近的相关研究主要集中在视觉语言模型的感知和问题解决能力上,忽略了公平性、多语言性和毒性等其他重要因素的评估。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论