标题:微软|GIT: A Generative Image-to-text Transformer for Vision and Language(GIT:生成式视觉和语言变换器)
作者:Jianfeng Wang, Zhengyuan Yang, Lijuan Wang等
简介:本文介绍了一种多模态建模方法。作者设计和训练了一个生成式图像到文本转换器 GIT,以统一视觉语言任务,如图像/视频字幕和问答。生成模型提供一致的网络架构预训练和微调,现有工作通常包含复杂的结构(单模/多模-编码器/解码器),并依赖于外部模块探测器/标记器和光学字符识别(OCR)。在GIT 中,作者简化架构为一个图像编码器和一个文本解码器,在一种语言下建模任务。作者还扩展了预训练数据和模型大小,以提高模型性能。作者的GIT建立了新的最佳效果,在12个具有挑战性的基准上有很大的提升。例如,作者的模型在 TextCaps 上首次超越人类表现 (138.2与CIDEr中的125.5相比)。此外,在图像分类和场景文本识别标准基准测试,作者还提出了一种基于生成的新方案。
论文下载:https://arxiv.org/pdf/2205.14100v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢