- 简介大型语言模型(LLMs)的发展显著推动了大型多模态模型(LMMs)的出现。虽然LMMs通过促进多模态理解和创作的协同作用取得了巨大成功,但它们在面对分布外数据时经常面临挑战。这主要是由于它们依赖于图像编码器,将图像编码为任务相关特征,这可能导致它们忽略不相关的细节。探索扩散模型在图像建模方面的能力自然引发了一个问题:扩散模型能否作为大型语言模型的“眼睛”用于图像感知?在本文中,我们提出了DEEM,一种简单而有效的方法,利用扩散模型的生成反馈来对齐图像编码器的语义分布。这解决了先前仅依赖于像ViT这样的图像编码器的方法的缺点,从而增强了模型对分布外样本的鲁棒性并减少了视觉幻觉。重要的是,这是在不需要额外的训练模块和更少的训练参数的情况下实现的。我们在我们新构建的RobustVQA基准测试和另一个著名的基准测试POPE上广泛评估了DEEM对于物体幻觉的表现。与最先进的交错内容生成模型相比,DEEM表现出更强的鲁棒性和更优秀的减轻模型幻觉的能力,同时使用更少的可训练参数,更少的预训练数据(10%)和更小的基础模型大小。
- 图表
- 解决问题本文旨在解决大型语言模型在处理分布外数据时面临的挑战。作者提出了一种新的方法,利用扩散模型的生成反馈来对齐图像编码器的语义分布,从而增强模型的鲁棒性和减少视觉幻觉。
- 关键思路DEEM是一种简单有效的方法,利用扩散模型的生成反馈来对齐图像编码器的语义分布,从而增强模型的鲁棒性。相比于只依赖于图像编码器的方法,DEEM通过使用更少的可训练参数、更少的预训练数据和更小的基础模型大小,展示了更强的鲁棒性和更好的减轻模型幻觉的能力。
- 其它亮点本文提出的DEEM方法在新构建的RobustVQA基准测试和已有的POPE基准测试上进行了广泛的评估。实验结果表明,DEEM展示了更强的鲁棒性和更好的减轻模型幻觉的能力,同时使用更少的可训练参数、更少的预训练数据和更小的基础模型大小。本文的工作值得深入研究。
- 在这个领域中,最近的相关研究包括《Vision-Language Pre-training with Contrastive Cross-Modal Tasks》、《Large-Scale Learning of General Visual Representations for Transfer》等。
沙发等你来抢
去评论
评论
沙发等你来抢