UniCoRN: Unified Commented Retrieval Network with LMMs

2025年02月12日
  • 简介
    多模态检索方法在处理复杂的、需要对查询内容和检索实体的视觉内容进行推理的组合查询时存在局限性。另一方面,大型多模态模型(LMMs)可以回答更复杂的视觉问题,但缺乏固有的能力来检索支持其答案的相关实体。我们旨在通过UniCoRN(统一注释检索网络)来解决这些局限性,该网络结合了组合多模态检索方法和生成语言方法的优势,超越了检索增强生成(RAG)。我们引入了一个实体适配器模块,以将检索到的多模态实体重新注入LMM中,使其在生成答案和注释时能够关注这些实体。通过保持基础LMM不变,UniCoRN保留了其原有功能,同时能够在单一集成框架下执行检索和文本生成任务。为了评估这些新能力,我们引入了注释检索任务(CoR)及其对应的数据集,目标是检索一张能准确回答给定问题的图像,并生成一个额外的文本响应,提供关于视觉信息的进一步澄清和详细说明。我们在多个数据集上展示了UniCoRN的有效性,显示其在组合多模态检索方面的召回率比现有技术提高了4.5%,在CoR任务中的评论生成方面METEOR指标提高了14.9%,BEM指标提高了18.4%。
  • 作者讲解
  • 图表
  • 解决问题
    该论文试图解决现有多模态检索方法在处理复杂组合查询时的局限性,以及大型多模态模型(LMMs)虽然能回答复杂的视觉问题但缺乏内在的实体检索能力的问题。这是一个新问题,旨在结合两者的优点,实现更强大的视觉问答和评论生成。
  • 关键思路
    关键思路是提出UniCoRN(统一评论检索网络),它将组成式多模态检索方法与生成语言方法相结合,超越了检索增强生成(RAG)。通过引入实体适配器模块,使LMM能够在生成答案和评论时关注检索到的多模态实体。此外,保持基础LMM不变以保留其原有功能,同时执行检索和文本生成任务。
  • 其它亮点
    亮点包括:1) 提出了Commented Retrieval任务(CoR)及其对应的数据集,旨在检索准确回答问题的图像并生成详细的文本评论;2) 在多个数据集上展示了显著改进,如在组合多模态检索中提升了4.5%的召回率,在CoR任务中的METEOR和BEM分别提高了14.9%和18.4%;3) 研究团队还开源了代码和数据集,为未来研究提供了资源。
  • 相关研究
    最近在这个领域内还有其他相关研究,例如:1)《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》;2)《Multimodal Pre-training with CLIP and MURAL》;3)《Vision-Language Pre-training from Raw Data》。这些研究都致力于提升多模态模型的理解和生成能力,但UniCoRN的独特之处在于它整合了检索和生成,并引入了实体适配器模块来增强模型的表现。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问