- 简介我们推出了SigLIP 2,这是一组新的多语言视觉-语言编码器,继承了原始SigLIP的成功。在这一代中,我们将最初的图像-文本训练目标与几个先前独立开发的技术结合成一个统一的方案,包括基于字幕的预训练、自监督损失(自我蒸馏、掩码预测)和在线数据整理。通过这些改进,SigLIP 2模型在所有规模上都超越了其SigLIP前身的核心能力,包括零样本分类、图像-文本检索以及在提取视觉表示用于视觉-语言模型(VLMs)时的迁移性能。此外,新的训练方案在定位和密集预测任务上带来了显著提升。我们还训练了支持多种分辨率并保留输入固有宽高比的变体。最后,我们在更多样化且包含去偏技术的数据集上进行训练,从而大大提高了多语言理解和公平性。为了使用户能够在推理成本与性能之间进行权衡,我们发布了四种不同大小的模型检查点:ViT-B(86M)、L(303M)、So400m(400M)和g(1B)。
- 图表
- 解决问题该论文旨在通过改进和扩展原始SigLIP模型,解决多语言视觉-语言编码器在零样本分类、图像-文本检索、密集预测任务等方面的性能提升问题。此外,它还致力于提高模型的多语言理解和公平性。
- 关键思路SigLIP 2的关键思路在于将多个先前独立开发的技术整合到一个统一的训练框架中,包括基于字幕的预训练、自监督损失(如自蒸馏、掩码预测)以及在线数据管理。这些改进不仅增强了模型的核心能力,还显著提升了模型在定位和密集预测任务上的表现。同时,支持多种分辨率和保持输入的原始宽高比,使模型更加灵活。
- 其它亮点该研究引入了更多样化和去偏见的数据集,从而提高了多语言理解能力和公平性。实验设计涵盖了不同规模的模型(ViT-B, L, So400m, g),并使用了广泛的数据集进行验证。所有模型均提供开源代码和预训练权重,便于后续研究和应用。未来的研究可以进一步探索如何优化模型在特定任务中的表现,例如医学图像分析或自动驾驶。
- 近期在这个领域的一些相关研究包括:1. CLIP: Connecting Text and Images (Radford et al., 2021),它开创了大规模图像-文本对比学习的先河;2. ALIGN: Augmenting Language Instruction with Generative Networks (Jia et al., 2021),提出了结合生成网络增强语言指令的方法;3. M6: A Large-Scale Pre-trained Model for Multi-modal Understanding and Generation (Xu et al., 2022),专注于多模态理解和生成的大规模预训练模型。
沙发等你来抢
去评论
评论
沙发等你来抢