- 简介大型视觉语言模型(LVLM)已经展示了在处理各种视觉语言任务方面的熟练能力。然而,当前的LVLM存在文本和图像模态之间的错位问题,导致三种幻觉问题,即物体存在、物体属性和物体关系。为了解决这个问题,现有的方法主要利用强化学习(RL)来对齐LVLM中的模态。然而,它们仍然存在三个主要限制:(1)一般反馈不能指示响应中包含的幻觉类型;(2)稀疏奖励仅为整个响应提供序列级奖励;(3)注释成本耗时且劳动密集。为了解决这些限制,我们提出了一种创新的方法,通过细粒度人工智能反馈(FGAIF)来对齐LVLM中的模态,主要包括三个步骤:基于AI的反馈收集、细粒度奖励模型训练和带有细粒度奖励的强化学习。具体而言,我们首先利用AI工具预测响应中每个段落的幻觉类型,并获得一组细粒度的反馈。然后,基于收集的奖励数据,训练三个专门的奖励模型来产生密集的奖励。最后,将一种新的细粒度反馈模块集成到近端策略优化(PPO)算法中。我们在幻觉和通用基准测试上进行了大量实验,证明了我们提出的方法的优越性能。值得注意的是,与以前使用基于RL的对齐方法训练的模型相比,我们提出的方法即使使用更少的参数也是有效的。
-
- 图表
- 解决问题解决LVLMs中文本和图像模态之间的错位问题,包括物体存在、属性和关系的幻觉问题。
- 关键思路通过Fine-Grained人工智能反馈(FGAIF)来对齐LVLMs中的文本和图像模态,包括AI反馈收集、细粒度奖励模型训练和带有细粒度奖励的强化学习。
- 其它亮点通过AI工具预测反馈中每个部分的幻觉类型,从而获得细粒度的反馈。基于收集的奖励数据,训练三个专门的奖励模型以产生密集奖励。将新的细粒度反馈模块集成到PPO算法中。实验结果表明,与以前的RL对齐方法训练的模型相比,我们的方法即使使用更少的参数也是有效的。
- 相关研究主要是使用强化学习来对齐LVLMs中的文本和图像模态,包括《Aligning Text and Image Modalities by Large Margin Softmax Loss》和《Learning to Align Cross-Modal Text and Image Embeddings for Recommendation in Social Media》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流