PaliGemma: A versatile 3B VLM for transfer

2024年07月10日
  • 简介
    PaliGemma是一个基于SigLIP-So400m视觉编码器和Gemma-2B语言模型的开放式视觉语言模型(VLM)。它经过训练,成为一个多才多艺、广泛知识的基础模型,具有很好的迁移效果。它在各种开放世界任务中表现出强大的性能。我们对PaliGemma进行了近40个不同的任务评估,包括标准的VLM基准测试,也包括更专业的任务,如遥感和分割。
  • 图表
  • 解决问题
    PaliGemma试图解决的问题是构建一个开放的视觉-语言模型,以有效地进行迁移学习,并在各种开放世界任务中实现强大的性能。
  • 关键思路
    PaliGemma的关键思路是将SigLIP-So400m视觉编码器和Gemma-2B语言模型相结合,训练出一种多功能的、广泛知识的基础模型,以在各种任务中实现强大的性能。
  • 其它亮点
    论文在近40个不同的任务上对PaliGemma进行了评估,包括标准的视觉-语言模型基准测试,以及更专业的任务,如遥感和分割。此外,论文还开源了PaliGemma的代码和预训练模型,这为后续的研究提供了便利。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如CLIP、DALL-E等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论