VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

简介

多模态大型模型（MLLMs）的快速进展展示了它们处理融合视觉和语言任务的卓越能力。然而，大多数当前的模型和基准适用于视觉和文本上下文范围较窄的情况。这些模型在面对涉及在文本和图像形式中导航大量无关和潜在误导信息的复杂理解任务时通常表现不佳。为了弥合这一差距，我们引入了一项新的、更具挑战性的任务，称为交错式图像-文本理解（IITC）。该任务要求模型辨别和忽略图像和文本中的多余元素，以准确回答问题并遵循复杂的指令来确定相关图像。为了支持这项任务，我们进一步创建了一个新的VEGA数据集，专门针对科学内容的IITC任务，并设计了一个子任务，图像-文本关联（ITA），以提高图像-文本相关性技能。我们对四个领先的闭源模型以及使用VEGA的各种开源模型进行评估，强调了IITC的严格性质。即使是最先进的模型，如Gemini-1.5-pro和GPT4V，也只取得了适度的成功。通过采用多任务、多尺度的后训练策略，我们在IITC任务上为MLLMs设定了一个强大的基准，实现了85.8%的图像关联准确率和0.508的Rouge分数。这些结果验证了我们的数据集在提高MLLMs对微妙的图像-文本理解能力方面的有效性。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文旨在解决视觉和语言混合任务中模型对于复杂理解任务的局限性，提出了一项更具挑战性的任务——交错的图像-文本理解（IITC），并构建了一个新的数据集VEGA。
关键思路

论文提出了一种多任务、多尺度后训练策略，以提高MLLMs在IITC任务上的性能，取得了较好的效果。
其它亮点

论文提出的IITC任务和VEGA数据集更具挑战性和代表性，实验结果表明多数现有模型在该任务上表现不佳。论文还提出了一个子任务ITA，用于提高图像和文本之间的相关性。
相关研究

最近相关的研究包括：《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》、《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》等。

VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

提问交流

提问交流