IsoBench: Benchmarking Multimodal Foundation Models on Isomorphic Representations

2024年04月01日
  • 简介
    当前的基础模型在只有文本输入或者同时有图像和文本输入时都表现出令人印象深刻的能力。但是它们的能力是否会因为输入形式的不同而改变呢?在这项工作中,我们提出了一个基准数据集 $\textbf{IsoBench}$,其中包含来自四个主要领域的问题:数学、科学、算法和游戏。每个例子都会呈现多种 $\textbf{同构表示}$ 的输入形式,例如视觉、文本和数学表示。IsoBench 提供了细粒度的反馈,以诊断由表示形式引起的性能差距。在各种基础模型中,我们观察到在同一个问题上,模型对文本表示有一致的偏好。最显著的是,在所有 IsoBench 问题上进行评估时,Claude-3 Opus 在提供图像而不是文本的情况下表现比文本差 28.7 分;同样,GPT-4 Turbo 差 18.7 分,Gemini Pro 差 14.9 分。最后,我们提出了两种提示技术,$\textit{IsoCombination}$ 和 $\textit{IsoScratchPad}$,通过考虑不同输入表示形式之间的组合和翻译来改善模型性能。
  • 作者讲解·1
  • 图表
  • 解决问题
    研究不同输入模态对基础模型性能的影响,提出IsoBench数据集和两种输入提示技术
  • 关键思路
    通过IsoBench数据集,发现基础模型在同一问题上更偏好文本输入,提出IsoCombination和IsoScratchPad两种输入提示技术来提高模型性能。
  • 其它亮点
    论文提出了IsoBench数据集,包含数学、科学、算法和游戏四个领域的问题,每个问题提供多种同构输入表示,提供细粒度的反馈来诊断输入表示形式导致的性能差距。实验结果显示,基础模型在同一问题上更偏好文本输入,当提供图像而非文本时,Claude-3 Opus的性能下降28.7分,GPT-4 Turbo下降18.7分,Gemini Pro下降14.9分。论文还提出了IsoCombination和IsoScratchPad两种输入提示技术,可以通过不同输入表示之间的组合和转换来提高模型性能。
  • 相关研究
    最近的相关研究包括:'Multimodal Learning with Transformers for Multimodal Language Processing, Generation, and Translation','The Power of Scale for Parameter-Efficient Prompt Tuning','VisualBERT: A Simple and Performant Baseline for Vision and Language'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问