Dual-Modal Prototype Joint Learning for Compositional Zero-Shot Learning

2025年01月23日
  • 简介
    组合式零样本学习(CZSL)旨在通过利用已知组合中习得的知识来识别属性和对象的新组合。近期的方法探索了使用视觉-语言模型(VLMs)来对齐文本和视觉模态。这些方法通常采用提示工程、参数调整和模态融合,以生成丰富的文本原型,作为CZSL的类别原型。然而,由于模态差距,文本原型无法完全捕捉所有类别原型的最佳表示,特别是那些可以直接从视觉模态获得的细粒度特征。 在本文中,我们提出了一种新颖的双模态原型联合学习框架,用于CZSL任务。我们的方法基于VLMs,在文本和视觉模态中引入了原型。文本原型被优化以捕捉广泛的概念信息,帮助模型在未见过的组合之间进行泛化。同时,视觉原型用于缓解由模态差距引起的分类错误,并捕捉细粒度细节以区分外观相似的图像。为了有效优化这些原型,我们设计了专门的分解模块和联合学习策略,以丰富来自两种模态的特征。这些原型不仅在训练过程中捕捉关键类别信息,在推理阶段也作为重要的参考目标。实验结果表明,我们的方法在三个公开可用的CZSL基准测试中,在闭合世界设定下达到了最先进水平,在开放世界设定下也表现出竞争力。这些发现验证了我们的方法在推进组合泛化方面的有效性。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决组合零样本学习(CZSL)中的模态差距问题,即文本原型无法完全捕捉到所有类别原型的最佳表示,尤其是具有细粒度特征的类别。这是一个在视觉与语言模型结合应用中需要克服的关键挑战。
  • 关键思路
    论文提出了一种新颖的双模态原型联合学习框架,基于视觉-语言模型(VLMs),引入了文本和视觉两种模态的原型。文本原型用于捕捉广泛的概念信息,帮助模型泛化到未见过的组合;而视觉原型则用于减少由模态差距引起的分类错误,并捕捉细粒度细节以区分外观相似的图像。这种方法通过专门的分解模块和联合学习策略优化了来自两个模态的特征。
  • 其它亮点
    实验设计方面,该研究在三个公开的CZSL基准数据集上进行了测试,展示了其方法在封闭世界设定下的最先进性能以及开放世界设定下的竞争力。此外,该研究还开源了代码,为后续研究提供了基础。值得继续深入研究的方向包括进一步探索如何更好地融合更多类型的模态信息,以及如何提高对更加复杂或抽象概念的理解能力。
  • 相关研究
    近期相关研究还包括:1. 'Learning to Compose Visual Concepts with Generative Query Networks',探讨了生成查询网络在组合新视觉概念上的应用;2. 'Compositional Generalization in Vision-Language Models via Modality-Agnostic Prototypes',研究了通过模态无关原型实现视觉-语言模型中的组合泛化;3. 'Zero-Shot Learning via Class-Conditioned Deep Image Generation',利用条件深度图像生成技术进行零样本学习。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问