- 简介本文讨论了使用大型语言模型进行多模态推理时常常出现的幻觉和模型内存在缺陷或过时知识的问题。一些方法尝试通过使用文本知识图谱来减轻这些问题,但是它们的单一模态知识限制了跨模态的综合理解。因此,本文提出了一种多模态知识图谱的多模态推理方法(MR-MKG),该方法利用多模态知识图谱(MMKG)来学习跨模态的丰富语义知识,显著增强了LLMs的多模态推理能力。具体而言,该方法利用关系图注意力网络来编码MMKG,并设计了一个跨模态对齐模块来优化图像-文本对齐。通过预训练构建了一个基于MMKG的数据集,为LLMs提供了多模态推理的初始专业知识。值得注意的是,MR-MKG在仅训练LLMs参数的约2.25%的情况下,就能取得优秀的性能。在多模态问答和多模态类比推理任务上的实验结果表明,MR-MKG方法优于先前的最先进模型。
- 图表
- 解决问题本论文旨在解决LLMs在多模态推理中出现幻觉和存在不足或过时知识的问题,提出了一种利用多模态知识图谱(MMKGs)来增强LLMs多模态推理能力的方法。
- 关键思路该论文提出了MR-MKG方法,利用MMKGs来学习跨模态的丰富语义知识,其中使用关系图注意力网络对MMKGs进行编码,并设计了跨模态对齐模块来优化图像-文本对齐。通过预训练构建了一个MMKG基础数据集,使LLMs在多模态推理方面具备初始的专业知识。实验结果表明,MR-MKG方法在仅使用LLMs参数大小的约2.25%进行训练时,实现了优越的性能,并在多模态问答和多模态类比推理任务上超过了之前的最先进模型。
- 其它亮点该论文的亮点包括使用MMKGs来增强LLMs多模态推理能力,提出了MR-MKG方法,使用关系图注意力网络和跨模态对齐模块来优化图像-文本对齐。通过预训练构建了一个MMKG基础数据集来为LLMs提供初始的专业知识。实验结果表明,MR-MKG方法在多模态问答和多模态类比推理任务上优于之前的最先进模型。
- 最近的相关研究包括使用文本知识图谱来解决LLMs的幻觉和知识缺失问题,以及使用多模态知识图谱来增强多模态推理能力。相关论文包括“TextKBQA: Generating Answers by Reading a Text Knowledge Graph”和“Multimodal Knowledge Graphs for Visual Question Answering”。
沙发等你来抢
去评论
评论
沙发等你来抢