Understanding Retrieval-Augmented Task Adaptation for Vision-Language Models

2024年05月02日
  • 简介
    预训练对比式视觉语言模型已经在广泛的任务中展现出了卓越的性能。然而,它们在细粒度训练数据集上往往表现不佳,因为预训练时没有充分代表这些类别,因此需要进行适应。最近的研究表明,利用网络规模的数据库中的样本进行检索增强适应在低数据环境下取得了有希望的结果。尽管实证研究取得了成功,但理解检索如何影响视觉语言模型的适应仍然是一个开放的研究问题。在本研究中,我们采用反思性的视角,通过系统地研究理解检索增强适应中关键组件的作用,揭示了单模态和跨模态检索的新见解,并强调了对于有效适应的对数输出集成的关键作用。我们进一步提出了直接支持我们实证观察结果的理论基础。
  • 图表
  • 解决问题
    研究如何通过检索增强来适应预先训练的对比视觉语言模型,以应对在预先训练期间未充分代表的类别的微调数据集中的困难。
  • 关键思路
    采用反思的角度,通过系统研究理解检索增强适应中关键组件的作用,揭示了单模态和跨模态检索的新见解,并强调了对数集合在有效适应中的关键作用。
  • 其它亮点
    实验设计了大量对比实验,使用了多个数据集,并开源了代码。论文提出的检索增强方法在低数据情况下表现良好,值得进一步研究。
  • 相关研究
    相关研究包括:《Unsupervised Visual-Language Pre-Training without Parallel Images and Texts》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《VL-BERT: Pre-training of Generic Visual-Linguistic Representations》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论