ConvBench: A Multi-Turn Conversation Evaluation Benchmark with Hierarchical Capability for Large Vision-Language Models

2024年03月29日
  • 简介
    本文介绍了ConvBench,这是一种新颖的、为大型视觉语言模型(LVLMs)量身定制的多轮对话评估基准。与现有的单轮对话评估基准不同,ConvBench采用了三级多模态能力层次结构,模仿人类认知过程,将感知、推理和创造力叠加在一起。每个层次都专注于不同的能力,反映了从基本感知到逻辑推理,最终到高级创造力的认知进展。ConvBench包括577个精心策划的多轮对话,涵盖了215个反映现实需求的任务。自动评估可在每个回合和整个对话级别上量化响应性能。利用能力层次结构,ConvBench可以精确地将对话错误归因于特定的层次。实验结果显示,多模态模型(包括GPT4-V)在多轮对话中存在与人类表现之间的性能差距。此外,多模态模型中弱的细粒度感知导致了推理和创造力的失败。ConvBench作为促进进一步研究以增强视觉对话的催化剂。
  • 图表
  • 解决问题
    论文旨在为大型视觉语言模型(LVLM)设计一个新的多轮对话评估基准,以解决当前单轮对话评估基准的不足。
  • 关键思路
    通过采用三级多模态能力层次结构,模仿人类认知过程,从基本感知到逻辑推理再到高级创造力,分别评估不同层次的能力,实现对对话失误的精确定位。
  • 其它亮点
    论文提出的ConvBench基准包含577个多轮对话和215个反映现实需求的任务,自动评估了每个轮次和整体对话的响应表现,并揭示了多模态模型和人类表现之间的性能差距。此外,实验结果还表明,多模态模型中感知能力的不足导致了推理和创造力的失败。ConvBench为进一步提高视觉对话的研究提供了契机。
  • 相关研究
    最近的相关研究包括:1. MultiWOZ:一个基于Wizard-of-Oz的多领域对话数据集;2. CoQA:一个大规模的跨领域问答数据集;3. VisDial:一个视觉对话数据集,其中包含了自然语言问答和对话生成任务。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论