- 简介大型语言模型(LLMs)在像Winograd Schema Challenge(WSC)这样的任务中展示了出色的文本常识推理能力。然而,将这种推理应用于多模态领域,其中理解文本和图像是必不可少的,仍然是一个重大挑战。为了解决这个问题,我们引入了WinoVis,这是一个新颖的数据集,专门设计用于在多模态上探索文本到图像模型在代词消歧方面的表现。利用GPT-4进行提示生成和Diffusion Attentive Attribution Maps(DAAM)进行热图分析,我们提出了一个新颖的评估框架,将模型在代词消歧方面的能力与其他视觉处理挑战隔离开来。对连续的模型版本进行评估表明,尽管有渐进性的进展,Stable Diffusion 2.0在WinoVis上的精度仅为56.7%,仅略高于随机猜测。进一步的误差分析确定了未来研究的重要领域,旨在提高文本到图像模型在解释和与复杂视觉世界互动方面的能力。
- 图表
- 解决问题本论文旨在解决文本-图像多模态领域中的代词消歧问题,通过WinoVis数据集和Diffusion Attentive Attribution Maps (DAAM)热力图分析提出了一种新的评估框架。
- 关键思路论文提出了一种新的评估框架,可以独立评估模型在代词消歧方面的表现,并使用该框架对连续模型版本进行了评估。
- 其它亮点论文提出了WinoVis数据集和DAAM热力图分析,用于评估文本-图像多模态领域中的代词消歧问题。实验结果表明,当前模型的代词消歧表现仍有很大提升空间。
- 近期的相关研究包括:1. Large Language Models for Multimodal Comprehension and Reasoning;2. Multimodal Language Pretraining for Video Captioning;3. VisualBERT: A Simple and Performant Baseline for Vision and Language。
沙发等你来抢
去评论
评论
沙发等你来抢