FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback

简介

大型视觉语言模型（LVLM）已经展示了在处理各种视觉语言任务方面的熟练能力。然而，当前的LVLM存在文本和图像模态之间的错位问题，导致三种幻觉问题，即物体存在、物体属性和物体关系。为了解决这个问题，现有的方法主要利用强化学习（RL）来对齐LVLM中的模态。然而，它们仍然存在三个主要限制：（1）一般反馈不能指示响应中包含的幻觉类型；（2）稀疏奖励仅为整个响应提供序列级奖励；（3）注释成本耗时且劳动密集。为了解决这些限制，我们提出了一种创新的方法，通过细粒度人工智能反馈（FGAIF）来对齐LVLM中的模态，主要包括三个步骤：基于AI的反馈收集、细粒度奖励模型训练和带有细粒度奖励的强化学习。具体而言，我们首先利用AI工具预测响应中每个段落的幻觉类型，并获得一组细粒度的反馈。然后，基于收集的奖励数据，训练三个专门的奖励模型来产生密集的奖励。最后，将一种新的细粒度反馈模块集成到近端策略优化（PPO）算法中。我们在幻觉和通用基准测试上进行了大量实验，证明了我们提出的方法的优越性能。值得注意的是，与以前使用基于RL的对齐方法训练的模型相比，我们提出的方法即使使用更少的参数也是有效的。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决LVLMs中文本和图像模态之间的错位问题，包括物体存在、属性和关系的幻觉问题。
关键思路

通过Fine-Grained人工智能反馈（FGAIF）来对齐LVLMs中的文本和图像模态，包括AI反馈收集、细粒度奖励模型训练和带有细粒度奖励的强化学习。
其它亮点

通过AI工具预测反馈中每个部分的幻觉类型，从而获得细粒度的反馈。基于收集的奖励数据，训练三个专门的奖励模型以产生密集奖励。将新的细粒度反馈模块集成到PPO算法中。实验结果表明，与以前的RL对齐方法训练的模型相比，我们的方法即使使用更少的参数也是有效的。
相关研究

相关研究主要是使用强化学习来对齐LVLMs中的文本和图像模态，包括《Aligning Text and Image Modalities by Large Margin Softmax Loss》和《Learning to Align Cross-Modal Text and Image Embeddings for Recommendation in Social Media》。

FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback

提问交流

提问交流