- 简介多模态检索增强生成(MMRAG)是一种强大的多模态文档问答方法。评估MMRAG的一个关键挑战是缺乏与感兴趣的问题风格和模态匹配的高质量数据集。因此,我们提出了SMMQG,一个合成数据生成框架。SMMQG利用检索器、大型语言模型(LLM)和大型多模态模型(LMM)之间的相互作用,直接从多模态文档中生成符合指定风格和模态的问题和答案对。我们使用SMMQG在维基百科文档上生成了一个包含1024个问题的MMRAG数据集,并使用它评估了最先进的模型,揭示了只有通过风格和模态特定的评估数据才能获得的模型性能见解。接下来,我们通过人类研究来衡量SMMQG产生的数据质量。我们发现,我们合成的数据质量与基准MMQA的众包数据质量相当,并且使用两个数据集的下游评估结果强烈一致。
- 图表
- 解决问题SMMQG:一个生成多模态问答数据集的框架
- 关键思路使用检索器、大型语言模型和大型多模态模型相互作用的方式,直接从多模态文档中生成符合指定风格和模态的问题和答案对。
- 其它亮点论文使用SMMQG生成了一个包含1024个问题的MMRAG数据集,并使用它评估了最先进的模型,揭示了只有通过特定风格和模态的评估数据才能获得的模型性能洞察。通过人类研究,发现SMMQG生成的数据质量与基准MMQA的质量相当,并且两个数据集的下游评估结果强烈一致。
- 最近的相关研究包括:1.《VisualBERT:一种新的预训练方法,用于视觉多模态学习》;2.《大规模多模态预训练:从文本到图像和视频》;3.《VilBERT:用于视觉和语言任务的跨模态预训练》等。
沙发等你来抢
去评论
评论
沙发等你来抢