EchoSight: Advancing Visual-Language Models with Wiki Knowledge

简介

这篇论文介绍了EchoSight，一种新的多模态检索增强生成（RAG）框架，可以让大型语言模型（LLMs）回答需要细粒度百科全书知识的视觉问题。为了实现高性能的检索，EchoSight首先使用仅限于视觉信息的方式搜索维基百科文章，然后根据文本-图像查询的相关性对这些候选文章进行进一步的重新排序。这种方法显著提高了多模态知识的整合能力，从而提高了检索结果和更准确的VQA响应。我们在Encyclopedic VQA和InfoSeek数据集上的实验结果表明，EchoSight在基于知识的VQA方面建立了新的最先进结果，在Encyclopedic VQA上达到了41.8％的准确率，在InfoSeek上达到了31.3％的准确率。
图表
解决问题

本论文旨在解决知识型视觉问答（KVQA）任务中，生成模型在融合外部知识方面存在的困难，提出一种新的多模态检索增强生成（RAG）框架EchoSight来解决这一问题。
关键思路

EchoSight首先使用仅基于视觉信息的方式搜索维基百科文章，然后根据文本-图像查询的相关性对候选文章进行进一步的重新排序，从而显著提高了多模态知识的整合，从而实现了更准确的VQA响应。
其它亮点

论文在Encyclopedic VQA和InfoSeek数据集上进行了实验，证明EchoSight在知识型VQA方面取得了新的最佳结果，Encyclopedic VQA的准确率为41.8％，InfoSeek的准确率为31.3％。值得关注的是，EchoSight的检索增强生成框架可以扩展到其他多模态应用中。
相关研究

在相关研究方面，最近的一些研究包括：《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graph》等。

EchoSight: Advancing Visual-Language Models with Wiki Knowledge

评论