论文链接:https://arxiv.org/pdf/2212.08045.pdf
代码链接:https://github.com/google-research/big_vision
这篇论文讨论了一种称为 CLIP-Pixels Only(CLIPPO)的多模式模型,它是一个纯基于像素的模型,可以用来执行图像、文本和多模式任务。CLIPPO 通过单一的编码器处理正常的图像和渲染成图像的文本。CLIPPO 在图像检索和零射击图像分类等任务中表现出色,几乎与 CLIP 一样好,但参数数量减少了一半,并且没有专门的文本塔或嵌入。当通过图像-文本对比学习和下一句对比学习联合训练时,CLIPPO 可以在自然语言理解任务中表现良好,而无需任何词级损失(语言建模或蒙版语言建模),并且优于基于像素的先前工作。令人惊讶的是,CLIPPO 可以通过将问题和图像一起渲染来获得良好的视觉问答准确度。最后,我们利用 CLIPPO 不需要分词器的事实,表明它可以在多语言多模式检索中取得良好的性能,而无需修改。
综上所述,这篇论文研究了 CLIPPO 这一多模式模型,它使用了单一的编码器处理图像和文本,并通过对比损失进行训练。该模型在图像检索和零射击图像分类等任务中表现出色,而且参数数量比 CLIP 少了一半。当联合训练时,CLIPPO 还可以在自然语言理解任务中表现良好,并且在视觉问答中获得良好的准确度。此外,CLIPPO 还可以在多语言多模式检索中取得良好的性能。

图 trains separate image and text encoders, each with a modality-specific preprocessing and embedding, on image/alt-text pairs with a contrastive objective
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢