- 简介在这项工作中,我们介绍了一种名为DOPRA的新方法,旨在减轻多模式大语言模型(MLLMs)中的幻觉。与现有的解决方案通常涉及昂贵的补充训练数据或整合外部知识源不同,DOPRA通过解码特定的加权层惩罚和重新分配来创新地解决幻觉问题,提供了一种经济有效的解决方案,无需额外的资源。DOPRA基于对MLLMs中控制幻觉的内在机制的独特见解,特别是模型倾向于过度依赖自我注意力矩阵中的摘要标记子集,忽略关键的图像相关信息。这种现象在某些层次上尤为明显。为了对抗这种过度依赖,DOPRA在解码过程中采用了加权叠加惩罚和重新分配策略,特别是在第12层等特定层中。此外,DOPRA包括一个回顾性分配过程,重新检查生成的标记序列,使算法能够重新分配标记选择,以更好地与实际图像内容对齐,从而减少自动生成的字幕中出现幻觉描述的发生率。总体而言,DOPRA通过在解码过程中进行有针对性的调整,系统地减少幻觉,从而在提高MLLMs的输出质量方面迈出了重要一步。
-
- 图表
- 解决问题本篇论文旨在解决多模态大语言模型(MLLMs)中的幻觉问题。这些模型在自我注意力矩阵中过度依赖某些摘要标记,忽略了重要的与图像相关的信息,从而导致幻觉描述的出现。
- 关键思路DOPRA是一种新颖的方法,通过在解码过程中对特定的加权层进行惩罚和重新分配,来减少幻觉描述的出现,而无需额外的资源。此外,DOPRA还包括回溯分配过程,以重新分配标记选择,从而更好地与实际图像内容对齐。
- 其它亮点该论文的亮点包括:1. DOPRA是一种经济有效的解决方案,不需要额外的训练数据或外部知识源。2. 该方法通过特定的惩罚和重新分配,有针对性地减少了幻觉描述的出现。3. 实验表明,DOPRA能够显著提高MLLMs的输出质量。该论文使用了多个数据集进行实验,并提供了开源代码。
- 在这个领域中,还有一些相关的研究,如“VisualBERT: A Simple and Performant Baseline for Vision and Language”和“Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流