多模态预训练｜VisualGPT：在Image Captioning中用预训练来平衡视觉和语言知识，提高数据效率

【论文】VisualGPT: Data-efficient Image Captioning by Balancing Visual Input and Linguistic Knowledge from Pretraining 【作者】Jun Chen, Han Guo, Kai Yi, Boyang Li, Mohamed Elhoseiny 【时间】20 Feb 2021 【推荐理由】本文提出VisualGPT，致力于利用大规模预训练语言模型来提高Image Caption任务的数据使用效率。作者设计了一个self-resurrecting结构的编-解码框架，将大规模语言模型和少量的领域内数据进行“适应”。在MACOCO数据集上，仅仅使用0.1%、0.5%和1%的数据量就能够达到不错的image caption效果。并且比baseline高5.4%的CIDEr（Conceptual Captions.）、10.8%的CIDEr（MS COCO）。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

多模态预训练｜VisualGPT：在Image Captioning中用预训练来平衡视觉和语言知识，提高数据效率

评论列表

评论