视觉Transformer BERT预训练新方式：中科大、MSRA等提出PeCo，优于MAE、BEiT

中国科学技术大学、微软亚研等机构的研究者提出了学习感知 codebook（ perceptual codebook PeCo），用于视觉 transformer 的 BERT 预训练。目前，BEiT 成功地将 BERT 预训练从 NLP 领域迁移到了视觉领域。BEiT 模型直接采用简单的离散 VAE 作为视觉 tokenizer，但没有考虑视觉 token 语义层面。相比之下，NLP 领域中的离散 token 是高度语义化的。这种差异促使研究者开始学习感知 codebook，他们发现了一个简单而有效的方法，即在 dVAE 训练期间强制执行感知相似性。

该研究证明 PeCo 生成的视觉 token 能够表现出更好的语义，帮助预训练模型在各种下游任务中实现较好的迁移性能。例如，该研究使用 ViT-B 主干在 ImageNet-1K 上实现了 84.5% 的 Top-1 准确率，在相同的预训练 epoch 下比 BEiT 高 1.3。此外，该方法还可以将 COCO val 上的目标检测和分割任务性能分别提高 +1.3 box AP 和 +1.0 mask AP，并且将 ADE20k 上的语义分割任务提高 +1.0 mIoU。

论文链接：https://arxiv.org/pdf/2111.12710v1.pdf

内容中包含的图片若涉及版权问题，请及时与我们联系删除

视觉Transformer BERT预训练新方式：中科大、MSRA等提出PeCo，优于MAE、BEiT

评论列表

评论