- 简介本文中,多模态推理经常受到大型语言模型(LLMs)中幻觉和存在缺陷或过时知识的影响。一些方法试图通过使用文本知识图谱来减轻这些问题,但是它们的单一模态知识限制了全面的跨模态理解。因此,本文提出了多模态知识图谱(MMKGs)的多模态推理方法,称为MR-MKG方法,它利用MMKGs学习跨模态的丰富和语义知识,显著增强了LLMs的多模态推理能力。具体而言,使用关系图注意力网络对MMKGs进行编码,并设计了跨模态对齐模块来优化图像-文本对齐。构建了一个基于MMKG的数据集,通过预训练为LLMs提供了多模态推理方面的初始专业知识。值得注意的是,MR-MKG仅使用LLMs参数大小的约2.25%进行训练即可实现优越的性能。多模态问答和多模态类比推理任务的实验结果表明,我们的MR-MKG方法优于先前的最先进模型。
- 图表
- 解决问题本论文旨在解决大型语言模型在多模态推理中出现的幻觉和知识不足问题,提出了一种利用多模态知识图谱(MMKGs)来增强多模态推理能力的方法。
- 关键思路论文提出了Multimodal Reasoning with Multimodal Knowledge Graph (MR-MKG)方法,利用MMKGs来学习跨模态的丰富语义知识,通过预训练将MMKG与LLMs相结合,从而显著提高多模态推理能力。
- 其它亮点论文采用关系图注意力网络对MMKGs进行编码,并设计了跨模态对齐模块来优化图像-文本对齐,实验结果表明MR-MKG方法在多模态问答和多模态类比推理任务上优于现有的最先进模型。同时,MR-MKG只使用LLMs参数的约2.25%,具有较小的模型大小和更高的效率。
- 在多模态推理领域,近期的相关研究包括:'VisualBERT: A Simple and Performant Baseline for Vision and Language','Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training','LXMERT: Learning Cross-Modality Encoder Representations from Transformers'等。
沙发等你来抢
去评论
评论
沙发等你来抢