华人一作统一「视觉-语言」理解与生成：一键生成图像标注，完成视觉问答，Demo可玩

现有的视觉 - 语言预训练 (Vision-Language Pre-training，VLP) 方法主要存在两个局限性：

（1）从模型角度来讲，大多数方法采用基于编码器的模型，或者采用基于编码器 - 解码器模型。然而，基于编码器的模型很难直接转换到文本生成任务中，而编码器 - 解码器模型还没有成功地用于图像 - 文本检索任务；

（2）从数据角度来讲，像 CLIP、SimVLM 等 SOTA 模型通过在 web 上收集的图像 - 文本对进行预训练，尽管扩大数据集获得了性能提升，但 web 上的文本具有噪声，对 VLP 来说并不是最优。

近日，来自 Salesforce Research 的研究者提出了 BLIP（Bootstrapping Language-Image Pre-training），用于统一视觉 - 语言理解和生成任务。BLIP 是一个新的 VLP 框架，可以支持比现有方法更广泛的下游任务。BLIP 通过自展标注（bootstrapping the captions），可以有效地利用带有噪声的 web 数据，其中标注器（captioner）生成标注，过滤器（filter）去除有噪声的标注。

该研究在视觉 - 语言任务上取得了 SOTA 性能，例如在图像 - 文本检索任务上， recall@1 提高 2.7%；在图像标注任务上，CIDEr 提高 2.8%、VQA 提高 +1.6%。当将 BLIP 以零样本的方式直接迁移到视频 - 语言任务时，BLIP 也表现出很强的泛化能力。

论文一作为Salesforce亚洲研究院高级研究科学家Junnan Li，香港大学电子工程学士，新加坡国立大学计算机科学博士。他的主要研究兴趣在于自监督学习、半监督学习、弱监督学习、迁移学习以及视觉与语言。