CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation

2024年07月01日
  • 简介
    尽管中国视觉语言模型(VLM)发展迅速,但大多数现有的中文视觉语言(VL)数据集都是基于现有英语VL数据集中的西方中心图像构建的。图像中的文化偏见使得这些数据集不适合评估中文文化中的VLM。为了解决这个问题,我们提出了一个新的中文视觉语言理解评估(CVLUE)基准数据集,其中选择的对象类别和图像完全由中文母语者驱动,确保源图像代表中国文化。该基准包含四个不同的VL任务,范围从图像文本检索到视觉问答、视觉定位和视觉对话。我们对CVLUE进行了详细的统计分析,并在CVLUE及其英文对应项上使用几个开源多语言VLM提供了基线性能分析,以揭示它们在英语和中文之间的性能差距。我们深入的类别级别分析揭示了现有VLM中缺乏中国文化知识。我们还发现,对中文文化相关的VL数据集进行微调可以有效地增强VLM对中国文化的理解。
  • 图表
  • 解决问题
    本论文旨在解决现有的中文视觉语言理解数据集基于西方文化的图像,无法准确评估中文文化相关模型的问题。
  • 关键思路
    本论文提出了一个新的中文视觉语言理解评估基准数据集CVLUE,其中选择的对象类别和图像完全由中文母语者驱动,确保源图像代表中国文化。通过在CVLUE和其英文对应物上对几个开源多语言VLM进行基准性能分析,揭示了它们在英语和中文之间的性能差距,并发现现有VLMs中缺乏中国文化知识。
  • 其它亮点
    本论文包含四个不同的VL任务,涵盖图像-文本检索、视觉问答、视觉基础和视觉对话。通过详细的统计分析,发现现有的VLMs在中文文化方面存在不足。实验设计了多个基线模型,并对中文文化相关VL数据集进行了微调,有效提高了VLMs对中文文化的理解。
  • 相关研究
    最近的相关研究主要集中在中文自然语言处理和视觉语言理解领域。例如,一些研究使用了中文VQA数据集来评估中文VLMs的性能,如《A Multi-Modal Multi-Task Framework for Chinese Visual Question Answering》。还有一些研究关注于解决跨语言VL挑战,如《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论