今天介绍下面这篇工作。做的内容是最近大火的图像文本联合预训练(Vision-Language pretraining)在医疗领域的应用。这篇文章的亮点主要是:

 

1. 探索了如何处理 False Negative 样本对预训练的影响;

 

2. 探索了怎么样在样本有限的情况下,最大化的扩充正负样本对来提高多模态预训练的 data efficiency。

图片

论文链接:

https://arxiv.org/abs/2210.10163

代码链接:

https://github.com/RyanWangZf/MedCLIP

针对上面的这两个问题,我们希望能够解耦(decouple)图片和文本的配对关系,转而用一个人工构建的弱标签系统作为匹配图片和文本的工具。见下图。

图片

▲ MedCLIP的基本架构

内容中包含的图片若涉及版权问题,请及时与我们联系删除