CVPR 2022 | 大幅减少零样本学习所需的人工标注，马普所和北邮提出富含视觉信息的类别语义嵌入

零样本学习旨在模仿人类的推理过程，利用可见类别的知识，对没有训练样本的不可见类别进行识别。类别嵌入（class embeddings）是描述类别语义和视觉特征的向量，能够实现知识在类别间的转移，因而在零样本学习中发挥着不可替代的作用。

零样本分类图解

如上图所示，由于属性（attributes）能够被不同类别共享，促进了知识在类别间的转移，因此是使用最广泛的类别嵌入。并在其他计算机视觉任务（如面部识别、细粒度分类、时尚趋势预测）中被广泛用作辅助信息。

然而属性标注过程需要大量人力投入和专家知识，限制了零样本学习在新数据集上的拓展。此外，受限于人类的认知局限，其标注的属性无法遍历视觉空间，因而图像中一些具有辨别性的特征无法被属性捕捉，导致零样本学习效果不佳。

针对以上问题，来自北京邮电大学、马普所等机构的研究者提出了类别嵌入发掘网络（Visually-Grounded Semantic Embedding Network, VGSE），本文主要回答了两个问题：（1）如何从可见类图像中自动发掘具有语义和视觉特征的类别嵌入；（2）如何在没有训练样本的情况下，为不可见类别预测类别嵌入。

论文链接: https://arxiv.org/abs/2203.10444
代码链接: https://github.com/wenjiaXu/VGSE

VGSE 模型结构图

内容中包含的图片若涉及版权问题，请及时与我们联系删除

CVPR 2022 | 大幅减少零样本学习所需的人工标注，马普所和北邮提出富含视觉信息的类别语义嵌入

评论列表

评论