论文标题:Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for Improved Cross-Modal Retrieval 论文链接:https://arxiv.org/abs/2103.11920 代码链接:https://github.com/UKPLab/MMT-Retrieval 作者单位:达姆施塔特工业大学 & 剑桥大学
在文本-图像等跨模态检索上表现SOTA!性能优于VisualSparta、SCG等网络,代码刚刚开源!
跨模态检索的当前最新方法是依靠基于Transformer的体系结构和跨注意力机制来共同处理图像和视觉输入,该结构具有跨注意力机制。在提供无与伦比的检索性能的同时,此类模型:1)通常是从头开始进行训练的,因此可扩展性较差; 2)遭受巨大的检索延迟和效率低下的问题,这使其在实际应用中不切实际。为了解决改善和有效的跨模态检索方面的这些关键差距,我们提出了一种新颖的微调框架,该框架可将任何经过预训练的文本图像多模态模型转换为有效的检索模型。该框架基于协作的检索和重新排序方法,该方法结合了以下内容:1)双网络分别对语料库的所有项目进行编码,从而实现有效的初始检索; 2)交叉编码器组件,用于更细微的(即,更智能的) )对检索到的少量项目的排名。我们还建议通过共享权重共同微调这两个分量,从而产生一个参数更有效的模型。我们在单语言,多语言和zero-shot设置中对一系列标准跨模态检索基准进行的实验证明,与最新的交叉编码器相比,它具有更高的准确性和巨大的效率优势。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢