Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese

2024年04月11日
  • 简介
    视觉语言模型(VLMs)经历了快速的演进,为多模态理解任务的显著进展打下了基础。然而,大多数这些模型都是在以英语为中心的数据集上进行训练和评估的,这在开发和评估针对其他语言(如日语)的VLMs方面存在差距。这个差距可以归因于缺乏构建VLMs的方法和缺少准确衡量其性能的基准。为了解决这个问题,我们引入了一个新的基准,日语Heron-Bench,用于评估VLMs的日语能力。日语Heron-Bench由各种适合日本语境的图像问题答案对组成。此外,我们还提供了一个基线日语VLM,该模型已经使用日语视觉指导调整数据集进行了训练。我们的Heron-Bench揭示了所提出的VLM在各种能力维度上的优势和局限性。此外,我们还澄清了像GPT-4V这样的强闭合模型和基线模型之间的能力差距,为未来在这个领域的研究提供了有价值的见解。我们发布了基准数据集和训练代码,以促进日语VLM研究的进一步发展。
  • 图表
  • 解决问题
    本论文旨在解决视觉语言模型(VLMs)在非英语语言(如日语)上的建立和评估问题,提出了一个新的基准测试集Japanese Heron-Bench,并介绍了一个基于日语视觉指导调整数据集训练的基线日语VLM模型。
  • 关键思路
    论文提出了一个新的基准测试集Japanese Heron-Bench,用于评估日语VLM模型的性能,并介绍了一个基于日语视觉指导调整数据集训练的基线日语VLM模型。
  • 其它亮点
    论文中的实验使用了日语Herone-Bench数据集和基线模型,并比较了不同模型的性能,为未来的研究提供了有价值的见解。此外,作者还开源了数据集和训练代码,以促进日语VLM研究的进一步发展。
  • 相关研究
    与本论文相关的研究包括视觉语言模型(VLMs)的其他应用和基准测试集的建立,如英语VLMs的GLUE和SuperGLUE基准测试集。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论