NEW

PaliGemma: A versatile 3B VLM for transfer

Lucas Beyer ,

Andreas Steiner ,

André Susano Pinto ,

Alexander Kolesnikov ,

Xiao Wang ,

Daniel Salz ,

Maxim Neumann ,

Ibrahim Alabdulmohsin ,

Michael Tschannen ,

Emanuele Bugliarello ,

Thomas Unterthiner ,

Daniel Keysers ,

Skanda Koppula ,

Fangyu Liu ,

Adam Grycner ,

Alexey Gritsenko ,

Neil Houlsby ,

Manoj Kumar ,

Keran Rong ,

Julian Eisenschlos ,

Rishabh Kabra ,

Matthias Bauer ,

Matko Bošnjak ,

Xi Chen ,

Matthias Minderer ,

Paul Voigtlaender ,

Ioana Bica ,

Ivana Balazevic ,

Joan Puigcerver ,

Pinelopi Papalampidi ,

Olivier Henaff ,

Xi Xiong ,

Radu Soricut ,

Jeremiah Harmsen ,

Xiaohua Zhai

热度 12

2024年07月10日

简介

PaliGemma是一个基于SigLIP-So400m视觉编码器和Gemma-2B语言模型的开放式视觉语言模型（VLM）。它经过训练，成为一个多才多艺、广泛知识的基础模型，具有很好的迁移效果。它在各种开放世界任务中表现出强大的性能。我们对PaliGemma进行了近40个不同的任务评估，包括标准的VLM基准测试，也包括更专业的任务，如遥感和分割。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

PaliGemma试图解决的问题是构建一个开放的视觉-语言模型，以有效地进行迁移学习，并在各种开放世界任务中实现强大的性能。
关键思路

PaliGemma的关键思路是将SigLIP-So400m视觉编码器和Gemma-2B语言模型相结合，训练出一种多功能的、广泛知识的基础模型，以在各种任务中实现强大的性能。
其它亮点

论文在近40个不同的任务上对PaliGemma进行了评估，包括标准的视觉-语言模型基准测试，以及更专业的任务，如遥感和分割。此外，论文还开源了PaliGemma的代码和预训练模型，这为后续的研究提供了便利。
相关研究

最近在这个领域中，还有一些相关的研究，如CLIP、DALL-E等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问