WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences

2024年06月16日
  • 简介
    最近视觉语言模型(VLMs)的突破强调了在真实世界多模态交互中基准人类偏好的必要性。为了解决这一差距,我们推出了WildVision-Arena(WV-Arena),这是一个在线平台,收集人类偏好以评估VLMs。我们通过从WV-Arena的8,000个用户提交中选择500个高质量样本来策划WV-Bench。WV-Bench使用GPT-4作为评判,将每个VLM与Claude-3-Sonnet进行比较,与WV-Arena Elo达到0.94的Spearman相关性。这显著优于其他基准,如MMVet、MMMU和MMStar。我们对20K个真实世界交互的全面分析揭示了顶尖VLM的失败案例的重要见解。例如,我们发现,尽管GPT-4V在简单的视觉识别和推理任务中超过了许多其他模型,如Reka-Flash、Opus和Yi-VL-Plus,但它仍面临着微妙的上下文线索、空间推理、视觉想象力和专业领域知识的挑战。此外,当前的VLM在故意挑衅时存在幻觉和安全问题。我们正在发布我们的聊天和反馈数据,以进一步推进VLM领域的研究。
  • 图表
  • 解决问题
    评估视觉语言模型的人类偏好,并揭示其失败案例和局限性。
  • 关键思路
    使用WildVision-Arena(WV-Arena)在线平台收集人类偏好,构建WV-Bench评估视觉语言模型。分析20K个实际场景交互,揭示当前模型在细微上下文提示、空间推理、视觉想象和专家领域知识等方面的局限性。
  • 其它亮点
    WV-Arena在线平台收集人类偏好,构建WV-Bench评估视觉语言模型;分析20K个实际场景交互,揭示当前模型的局限性;发布聊天和反馈数据以进一步推进该领域的研究。
  • 相关研究
    最近的相关研究包括MMVet、MMM和MMStar等基准模型。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论