- 简介大型视觉语言模型(LVLM)由于需要大量资源,无法频繁更新,因此忽略了最新的知识,例如LLaVA系列。因此,在许多情况下,它们会失败。例如,如果LVLM在2024年1月发布,那么它将不知道新电影《沙丘2》的详细情节,因为该电影直到2024年2月才发布。为了解决这个问题,一种有前途的解决方案是在推理过程中通过互联网搜索为LVLM提供最新的知识,即互联网增强生成(IAG),这已经集成在一些闭源商业LVLM中,例如GPT-4V。然而,支持它们的具体机制仍然是一个谜。在本文中,我们提出了一个即插即用的框架,用于增强现有的LVLM处理关于最新知识的视觉问答(VQA),称为UDKAG。我们训练了一个分层过滤模型,以有效地和高效地从搜索引擎返回的网站中找到最有帮助的内容,以提示LVLM了解最新的知识。为了训练模型和评估我们的框架性能,我们提出了一个流程来自动生成新闻相关的VQA样本来构建一个数据集,称为UDK-VQA。引入了多模型投票机制来标记网站/内容对VQA样本的有用性以构建训练集。实验结果表明,我们的框架的有效性优于GPT-4V约25%的准确性。
-
- 图表
- 解决问题如何通过互联网搜索提供最新知识以解决大型视觉语言模型的知识滞后问题?
- 关键思路提出一种名为UDKAG的框架,通过训练分层过滤模型来有效地和高效地从搜索引擎返回的网站中找到最有用的内容,以提示大型视觉语言模型的最新知识。
- 其它亮点提出UDKAG框架,通过互联网搜索提供最新知识以解决大型视觉语言模型的知识滞后问题;提出UDK-VQA数据集和多模型投票机制来评估框架的性能;实验结果表明,UDKAG框架的准确性比GPT-4V高约25%。
- 最近的相关研究包括:使用知识库进行视觉问答(Visual Question Answering Using Knowledge Graphs)和基于互联网搜索的知识增强对话生成(Internet-Augmented Dialogue Generation with Contextualized Knowledge Selection from Search Engine Results)。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流