【论文】VisualGPT: Data-efficient Image Captioning by Balancing Visual Input and Linguistic Knowledge from Pretraining 【作者】Jun Chen, Han Guo, Kai Yi, Boyang Li, Mohamed Elhoseiny 【时间】20 Feb 2021 【推荐理由】本文提出VisualGPT,致力于利用大规模预训练语言模型来提高Image Caption任务的数据使用效率。作者设计了一个self-resurrecting结构的编-解码框架,将大规模语言模型和少量的领域内数据进行“适应”。在MACOCO数据集上,仅仅使用0.1%、0.5%和1%的数据量就能够达到不错的image caption效果。并且比baseline高5.4%的CIDEr(Conceptual Captions.)、10.8%的CIDEr(MS COCO)。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢