IG Captioner: Information Gain Captioners are Strong Zero-shot Classifiers

2023年11月27日
  • 简介
    本文研究表明,生成式训练在构建视觉语言模型方面具有强大的能力。然而,在零样本判别基准上,使用生成式和判别式目标训练的模型之间仍存在性能差距。本文旨在在没有任何微调过程或附加模块的情况下,提高生成式训练在分类任务上的有效性,从而缩小这一差距。具体而言,我们的重点是缩小生成式字幕生成器和CLIP分类器之间的差距。我们首先分析字幕生成器和分类器的预测,发现字幕生成继承了纯文本模态训练的语言模型的分布偏差,使其在视觉信号上的基础更弱。为了解决这个问题,我们重新设计了字幕生成器的评分目标,以减轻分布偏差,并专注于衡量视觉输入带来的信息增益。我们进一步设计了一个生成式训练目标来匹配评估目标。我们将从新程序训练和评估的模型命名为信息增益(IG)字幕生成器。我们在公共的Laion-5B数据集上预训练模型,并进行了一系列的判别性评估。在ImageNet的零样本分类中,IG字幕生成器的性能比标准字幕生成器提高了$>18\%$,并实现了与CLIP分类器相当的性能。IG字幕生成器还在MSCOCO和Flickr30K的零样本图像-文本检索任务中表现出强大的性能。我们希望本文能激发进一步研究,以统一视觉语言模型的生成式和判别式训练程序。
  • 图表
  • 解决问题
    本论文旨在缩小生成式和判别式训练在分类任务上的性能差距,特别是在图像标注和图像分类任务中。
  • 关键思路
    通过重新设计图像标注模型的评分目标,减轻分布偏差,集中于衡量视觉输入带来的信息增益,并设计相应的生成式训练目标,从而提高生成式训练在分类任务中的效果。
  • 其它亮点
    论文通过实验表明,所提出的Information Gain(IG)图像标注模型在零样本分类任务上相比标准图像标注模型提高了18%,并且在MSCOCO和Flickr30K的零样本图像-文本检索任务上表现强劲。论文的方法可以启发进一步研究将生成式和判别式训练过程统一的方向。
  • 相关研究
    相关研究包括:1. CLIP模型;2. 生成式模型在零样本分类任务上的性能相对较差;3. 通过引入视觉信息来提高生成式模型的性能。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论