- 简介现有的信息检索(IR)模型通常假定格式是同质的,限制了它们对于不同用户需求的适用性,例如搜索带有文本描述的图像,搜索带有标题图像的新闻文章,或者使用查询图像查找类似的照片。为了应对这些不同的信息需求,我们引入了UniIR,这是一个统一的指导多模式检索器,能够处理跨模态的八个不同的检索任务。UniIR是一个单一的检索系统,联合训练了十个不同的多模态IR数据集,通过解释用户指令来执行各种检索任务,展示了对现有数据集的强大性能和对新任务的零-shot泛化能力。我们的实验表明,多任务训练和指令调整是UniIR泛化能力的关键。此外,我们构建了M-BEIR,一个多模式检索基准,具有全面的结果,以标准化通用多模态信息检索的评估。
- 图表
- 解决问题UniIR: 一种解决多模态信息检索的统一指导多模态检索器
- 关键思路UniIR是一种统一的指导多模态检索器,能够处理八种不同的检索任务,通过用户指令来执行各种检索任务,具有良好的泛化能力和多任务训练的优势。
- 其它亮点论文通过训练UniIR来解决多模态信息检索的问题,UniIR能够处理八种不同的检索任务,具有良好的泛化能力和多任务训练的优势。实验使用了十个不同的数据集,并构建了M-BEIR多模态检索基准测试,以标准化评估多模态信息检索。
- 与该论文相关的其他研究包括:1.《VisualBERT: 一种视觉语言建模方法,用于多模态信息检索》;2.《ViLBERT:一种具有联合多模态编码器的先进视觉语言模型》;3.《一种基于多模态交互的视觉问答方法》等。
沙发等你来抢
去评论
评论
沙发等你来抢