ReMI: A Dataset for Reasoning with Multiple Images

2024年06月13日
  • 简介
    随着大型语言模型(LLMs)的不断推进,创建新的基准以有效评估它们不断扩展的能力并确定改进领域至关重要。本文关注于多图像推理,这是最先进的LLMs中的一种新兴能力。我们介绍了ReMI,这是一个旨在评估LLMs“使用多个图像进行推理”的数据集。该数据集涵盖了各种推理领域的多个任务,包括数学、物理、逻辑、代码、表格/图表理解以及空间和时间推理。它还涵盖了多图像推理场景中发现的广泛特征。我们使用ReMI对几个尖端的LLMs进行了基准测试,并发现它们的表现与人类水平的熟练程度之间存在实质性差距。这突显了多图像推理面临的挑战和进一步研究的必要性。我们的分析还揭示了不同模型的优缺点,为当前可达到的推理类型和未来模型需要改进的领域提供了启示。为了促进这一领域的进一步研究,我们正在公开发布ReMI:https://huggingface.co/datasets/mehrankazemi/ReMI。
  • 作者讲解
  • 图表
  • 解决问题
    本论文的问题是如何评估和提高大型语言模型在多图像推理方面的能力。为此,作者提出了一个新的基准数据集ReMI,并使用多个先进的大型语言模型对其进行了评估。
  • 关键思路
    本论文的关键思路是使用新的基准数据集ReMI来评估大型语言模型在多图像推理方面的能力,并分析不同模型的优缺点,为未来的研究提供方向。
  • 其它亮点
    本论文的亮点包括:1.提出了一个新的基准数据集ReMI来评估大型语言模型在多图像推理方面的能力;2.使用多个先进的大型语言模型对ReMI进行了评估,发现它们的表现与人类的水平还存在较大差距;3.分析了不同模型在多图像推理方面的优缺点,为未来的研究提供了方向。
  • 相关研究
    近期在多图像推理方面的相关研究包括:1.《CLEVRER: CoLlision Events for Video REpresentation and Reasoning》;2.《Multi-Modal Multi-Step Reasoning with Cross-Modal Attention》;3.《Visual Reasoning with Multi-Hop Feature Modulation》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问