Unum AI | 以 100 倍的数据和计算量击败 OpenAI CLIP

Beating OpenAI CLIP with 100x less data and compute

——Efficient pre-training of Vision-Language transformers for Semantic Search

以 100 倍的数据和计算量击败 OpenAI CLIP
——用于语义搜索的视觉语言转换器的高效预训练

来自 Unum AI 团队的问候！去年，我们一直在默默地预训练大量用于语义搜索的多模态模型。现在我们将它与我们的数据库捆绑在一起，并在 HuggingFace 门户网站上发布了几个性能极佳的检查点！

那么我们是怎么做到的呢？像 OpenAI CLIP 这样的训练模型不是只为谷歌规模的公司保留吗？我们不这么认为，今天我们将剖析如何训练一个比多语言 mCLIP 更精确的 Vision-Language transformer，它也工作得更快！[机器翻译]

内容中包含的图片若涉及版权问题，请及时与我们联系删除