Traveling Across Languages: Benchmarking Cross-Lingual Consistency in Multimodal LLMs

2025年05月21日
  • 简介
    多模态大语言模型(MLLMs)的快速发展显著提升了其在实际应用场景中的表现。然而,在多种语言之间实现一致的性能,尤其是融入文化知识时,仍然是一个重大挑战。为更好地评估这一问题,我们提出了两个新的基准测试:KnowRecall 和 VisRecall,用于评估 MLLMs 的跨语言一致性。KnowRecall 是一个视觉问答基准,旨在衡量 15 种语言中的事实知识一致性,重点关注全球地标相关的文化和历史问题。VisRecall 则通过要求模型在不访问图像的情况下,用 9 种语言描述地标外观,来评估视觉记忆的一致性。实验结果表明,包括专有模型在内的当前最先进的 MLLMs,在实现跨语言一致性方面仍然面临困难。这突显了开发更强大方法的必要性,以构建真正多语言且具备文化意识的模型。
  • 图表
  • 解决问题
    论文试图解决多模态大语言模型(MLLMs)在跨语言一致性方面的挑战,特别是涉及文化知识和视觉记忆时的表现问题。这是一个持续存在的问题,尽管已有研究尝试改善多语言模型的性能,但跨语言一致性和文化敏感性仍然是一个未完全解决的难题。
  • 关键思路
    论文通过引入两个新基准测试KnowRecall和VisRecall,评估MLLMs在15种语言中的事实知识一致性和9种语言中的视觉记忆一致性。这种方法创新地将文化与历史知识融入多语言模型评估,并首次专注于全球地标相关的问题,以衡量模型的文化敏感性和跨语言表现。
  • 其它亮点
    实验设计严谨,涵盖多种语言和文化背景;数据集包括全球地标相关的视觉和文本信息,具有高度代表性;结果显示即使是最先进的MLLMs也存在显著的跨语言一致性问题,为未来研究指明方向。论文未提及代码开源情况,但其提出的基准测试框架值得进一步开发和扩展。
  • 相关研究
    相关研究包括《M3P: Multimodal Massive Pre-training with Unified Perception and Language Understanding》、《X-VLM: Exploring Cross-Modal Correspondence for Vision-and-Language Pre-training》和《M6: A Large-Scale Multimodal Pre-trained Model》等。这些工作主要集中在多模态预训练和跨模态理解上,而本论文的独特之处在于专门针对跨语言一致性和文化知识进行深入分析。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论