简介:当以足够的规模训练时,自回归语言模型表现出在被提示后学习新语言任务的显着能力
例子。在这里,我们提出了一种简单而有效的方法来转移这种少样本学习能力到多模态(视觉和语言)。使用对齐的图像和标题数据,我们训练一个视觉编码器来表示每个图像作为连续嵌入的序列,这样一个预训练的、使用前缀提示的冻结语言模型会生成适当的标题。训练出的系统是一个多模态的小样本学习器,在给定示例条件的新任务下具有惊人的学习能力,以多个交错的图像和文本嵌入作为表示。通过测量单一模型在各种现有和新基准,我们证明它可以快速学习新物体和新视觉类别的词,利用外部知识完成少样本视觉问答。
论文下载:https://arxiv.org/pdf/2106.13884v1.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
举报类型(必选)
举报详情(选填)
0/200
沙发等你来抢
评论
沙发等你来抢