TouchStone: 通过语言模型评估视觉语言模型

论文

热门论文 2023-09-01 11:35 分享

以下文章来源于arxiv.org

TouchStone: Evaluating Vision-Language Models by Language Models

解决问题：该论文旨在提出一种新的评估方法，以全面评估大型视觉语言模型（LVLMs）的各种能力，包括对话能力和视觉叙事能力。作者认为当前的评估方法主要关注识别和推理能力，忽略了对话和叙事能力的直接评估。

关键思路：该论文的关键思路是将强大的语言模型（LLMs）作为评判者，通过构建一个综合的视觉对话数据集TouchStone，利用详细的图像注释将多模态输入内容转换成LLMs可以理解的形式，并直接评估LVLMs的对话质量。通过验证，论文证明了强大的LVLMs可以通过利用其文本能力来有效地评分，与人类偏好保持一致。

其他亮点：该论文的数据集TouchStone覆盖了基本的识别和理解能力，还扩展到了文学创作。该论文提出的评估方法可以为LVLMs的评估提供一个基准，并为构建更强大的LVLMs铺平道路。此外，该论文的评估代码已经在GitHub上开源。

相关研究：近期其他相关的研究包括：

"VisualBERT: A Simple and Performant Baseline for Vision and Language"，Liunian Harold Li等，Facebook AI；
"Unified Vision-Language Pre-Training for Image Captioning and VQA"，Luowei Zhou等，CMU和FAIR；
"LXMERT: Learning Cross-Modality Encoder Representations from Transformers"，Hao Tan等，CMU和UCSD。

论文摘要：本文提出了一种评估大型视觉语言模型（LVLMs）的方法，该方法使用强大的语言模型（LLMs）作为评判者，全面评估LVLMs的各种能力。该方法构建了一个综合的视觉对话数据集TouchStone，包括开放式世界的图像和问题，涵盖五个主要类别的能力和27个子任务。通过将详细的图像注释集成到数据集中，我们可以将多模态输入内容有效地转换为LLMs可以理解的形式，从而使我们能够使用先进的LLMs直接评估多模态对话的质量，而不需要人类干预。通过验证，我们证明了像GPT-4这样的强大LVLMs可以通过利用其文本能力单独评分对话质量，与人类偏好相一致。我们希望我们的工作可以作为LVLMs评估的基准，并为构建更强大的LVLMs铺平道路。评估代码可在https://github.com/OFA-Sys/TouchStone上获得。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

评论列表

沙发等你来抢

去评论