Tag2Text: 基于图像打标的视觉-语言模型引导

CV

论文

白羽中 2023-03-14 09:34 分享

以下文章来源于arxiv.org

Tag2Text 是一个视觉语言预训练框架，引入了图像标签来指导视觉语言特征的学习，并在各种下游基准上取得了最先进或有竞争力的结果。

Tag2Text: Guiding Vision-Language Model via Image Tagging

X Huang, Y Zhang, J Ma, W Tian, R Feng, Y Zhang, Y Li, Y Guo, L Zhang
[Fudan University & OPPO Research Institute]

Tag2Text 将图像标签引入视觉语言模型，以指导视觉语言特征的学习；
利用从其配对文本中解析出的标签来学习图像打标器，并提供物体以外的更多样的标签类别；
Tag2Text 通过利用细粒度的文本信息实现了卓越的图像标签识别能力；
通过利用标签指导，Tag2Text 有效地提高了视觉语言模型在基于生成和基于对齐的任务上的性能。

https://arxiv.org/abs/2303.05657

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

评论列表

沙发等你来抢

去评论