Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning

简介

生成式零样本学习（ZSL）学习生成器来合成未见过类别的视觉样本，这是推进ZSL的有效方法。然而，现有的生成方法依赖于高斯噪声的条件和预定义的语义原型，这限制了生成器仅在特定的已见类别上进行优化，而没有对每个视觉实例进行表征，导致泛化能力差（例如，过度拟合到已见类别）。为了解决这个问题，我们提出了一种新颖的视觉增强动态语义原型方法（称为VADS），通过充分利用视觉增强知识到语义条件中，提高生成器学习准确的语义-视觉映射能力。具体而言，VADS由两个模块组成：（1）视觉感知领域知识学习模块（VDKL）学习视觉特征的局部偏差和全局先验（称为领域视觉知识），用于提供更丰富的先验噪声信息，替代纯高斯噪声；（2）以视觉为导向的语义更新模块（VOSU）根据样本的视觉表示更新语义原型。最终，我们将它们的输出连接成一个动态语义原型，作为生成器的条件。广泛的实验表明，我们的VADS在三个著名数据集上实现了卓越的CZSL和GZSL性能，并且在SUN、CUB和AWA2上的平均增加分别为6.4％、5.9％和4.2％，优于其他最先进的方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决零样本学习中生成模型仅优化于特定已见类别，导致泛化性能不佳的问题。作者提出了一种新的方法，利用视觉增强动态语义原型（VADS）来提高生成模型的准确性。
关键思路

论文的关键思路是利用VADS方法，通过学习本地偏差和全局先验的视觉特征，将视觉增强知识充分利用到语义条件中，从而提高生成模型的泛化性能。
其它亮点

论文使用了SUN、CUB和AWA2三个数据集进行实验，并与其他最新的方法进行了比较。实验结果表明，VADS方法在CZSL和GZSL方面的性能均优于其他方法，并分别提高了6.4％、5.9％和4.2％。
相关研究

在最近的相关研究中，还有一些基于零样本学习的生成模型，如Generative Adversarial Networks for Zero-Shot Learning (GAN-ZSL)和Latent Embeddings for Zero-Shot Classification (LE-ZSL)。

Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning

提问交流

提问交流