- 简介大规模多模态表征学习在测试时成功优化了零样本迁移。然而,标准的预训练范式(在大量图像-文本数据上进行对比学习)并没有明确鼓励表征支持少量样本适应。在这项工作中,我们提出了一种简单但精心设计的多模态预训练扩展方法,使表征能够容纳额外的上下文信息。通过这一目标,我们展示了视觉-语言模型可以被训练以显著提高少量样本适应能力:在21个下游任务中,我们发现测试时样本效率提高了多达四倍,并且平均少量样本适应性能提高了超过5%,同时保留了跨模型规模和训练时长的零样本泛化性能。特别是,配备了简单的、无需训练的、基于度量的适应机制后,我们的表征轻松超越了更复杂且成本更高的优化方案,极大地简化了对新领域的泛化。
- 图表
- 解决问题论文试图解决多模态预训练模型在少样本适应性上的不足,尽管这些模型在零样本迁移上表现良好。这是一个旨在提升现有模型性能的问题,但具体到少样本适应性的优化,则是该研究的一个新焦点。
- 关键思路论文提出了一种扩展的多模态预训练方法,通过引入新的训练目标来增强模型对额外上下文的支持,从而提高其在少样本场景下的适应能力。这一方法不仅保持了模型的零样本泛化能力,还在多个下游任务上实现了显著的性能提升。
- 其它亮点论文展示了在21个下游任务上,模型的少样本适应性平均提高了超过5%,最高达到四倍的样本效率提升。此外,研究还发现,使用简单的基于度量的适应机制,可以超越复杂的优化方案,大大简化了对新领域的泛化过程。论文提供了详细的实验设计和数据集信息,并且可能包含开源代码,为后续研究提供了基础。
- 近年来,多模态学习领域涌现了许多相关研究,如CLIP、 ALIGN 和 ViLT 等,这些研究主要集中在大规模对比学习上,以提高模型的零样本迁移能力。然而,关于如何在保持零样本性能的同时提升少样本适应性的研究相对较少。相关论文包括《Learning Transferable Visual Models From Natural Language Supervision》和《ALIGN: Aligning Texts and Images Through Contrastive Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢