Tag2Text 是一个视觉语言预训练框架,引入了图像标签来指导视觉语言特征的学习,并在各种下游基准上取得了最先进或有竞争力的结果。

Tag2Text: Guiding Vision-Language Model via Image Tagging

X Huang, Y Zhang, J Ma, W Tian, R Feng, Y Zhang, Y Li, Y Guo, L Zhang
[Fudan University & OPPO Research Institute]

  1. Tag2Text 将图像标签引入视觉语言模型,以指导视觉语言特征的学习;
  2. 利用从其配对文本中解析出的标签来学习图像打标器,并提供物体以外的更多样的标签类别;
  3. Tag2Text 通过利用细粒度的文本信息实现了卓越的图像标签识别能力;
  4. 通过利用标签指导,Tag2Text 有效地提高了视觉语言模型在基于生成和基于对齐的任务上的性能。

https://arxiv.org/abs/2303.05657


图片
图片
图片
图片