EchoSight: Advancing Visual-Language Models with Wiki Knowledge

2024年07月17日
  • 简介
    这篇论文介绍了EchoSight,一种新的多模态检索增强生成(RAG)框架,可以让大型语言模型(LLMs)回答需要细粒度百科全书知识的视觉问题。为了实现高性能的检索,EchoSight首先使用仅限于视觉信息的方式搜索维基百科文章,然后根据文本-图像查询的相关性对这些候选文章进行进一步的重新排序。这种方法显著提高了多模态知识的整合能力,从而提高了检索结果和更准确的VQA响应。我们在Encyclopedic VQA和InfoSeek数据集上的实验结果表明,EchoSight在基于知识的VQA方面建立了新的最先进结果,在Encyclopedic VQA上达到了41.8%的准确率,在InfoSeek上达到了31.3%的准确率。
  • 图表
  • 解决问题
    本论文旨在解决知识型视觉问答(KVQA)任务中,生成模型在融合外部知识方面存在的困难,提出一种新的多模态检索增强生成(RAG)框架EchoSight来解决这一问题。
  • 关键思路
    EchoSight首先使用仅基于视觉信息的方式搜索维基百科文章,然后根据文本-图像查询的相关性对候选文章进行进一步的重新排序,从而显著提高了多模态知识的整合,从而实现了更准确的VQA响应。
  • 其它亮点
    论文在Encyclopedic VQA和InfoSeek数据集上进行了实验,证明EchoSight在知识型VQA方面取得了新的最佳结果,Encyclopedic VQA的准确率为41.8%,InfoSeek的准确率为31.3%。值得关注的是,EchoSight的检索增强生成框架可以扩展到其他多模态应用中。
  • 相关研究
    在相关研究方面,最近的一些研究包括:《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graph》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论