SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs

2024年06月28日
  • 简介
    人工合成数据生成近来因其在训练大型视觉和语言模型方面的实用性而受到了重视。然而,将合成数据应用于训练多模态上下文增强生成系统的应用相对较少被探索。现有工作的这一空白很重要,因为现有的视觉和语言模型(VLMs)并非专门针对上下文增强生成进行训练。因此,适应这些模型的资源对于使它们在检索增强生成(RAG)设置中发挥作用至关重要,其中使用检索器收集相关信息,然后通过上下文增强提供给生成模型。为了解决这个具有挑战性的问题,我们生成了SK-VQA:一个包含超过200万个问题-答案对的大型合成多模态数据集,需要外部知识来确定最终答案。我们的数据集比其它同类资源更大,且具有更多的独特问题,包含比以前提出的数据集更多来源的图像。通过广泛的实验,我们证明了我们的合成数据集不仅可以作为一个具有挑战性的基准,而且对于适应现有的多模态生成模型进行上下文增强生成也非常有效。
  • 图表
  • 解决问题
    本论文旨在解决多模态上下文增强生成系统训练中缺乏合适数据集的问题,提出了一种基于合成数据的方法
  • 关键思路
    通过生成一个包含超过200万个需要外部知识才能回答的问题-答案对的合成多模态数据集SK-VQA,来适应现有的生成多模态模型,使其能够在检索增强生成(RAG)任务中使用
  • 其它亮点
    SK-VQA数据集比现有数据集更大、更多样化,能够作为一个具有挑战性的基准测试集,同时也能够有效地用于适应现有的生成多模态模型;实验设计详尽,数据集使用了各种来源的图像,论文开源了代码
  • 相关研究
    最近的相关研究包括:《DALL-E: Creating Images from Text》、《VQA: Visual Question Answering》、《Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning》等
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论