- 简介优先偏好对于提高大型语言模型(LLMs)的性能已经成为一个至关重要的组成部分,但在多模式大型语言模型(MLLMs)中的影响相对较少被探索。与语言模型类似,用于图像理解任务的MLLMs也面临着幻觉等挑战。在MLLMs中,幻觉不仅可能通过陈述不正确的事实而产生,还可能通过产生与图像内容不一致的响应而产生。优先偏好对于MLLMs的一个主要目标是鼓励这些模型将响应与图像信息更紧密地对齐。最近,多篇论文引入了MLLMs的优先偏好数据集,并研究了不同的对齐方法,包括直接优先偏好优化(DPO)和近端策略优化(PPO)。然而,由于数据集、基础模型类型和对齐方法的差异,尚不清楚这些工作中哪些具体元素对于所报道的改进贡献最大。在本文中,我们独立分析MLLMs中优先偏好对齐的每个方面。我们首先将对齐算法分为两组,离线(如DPO)和在线(如在线DPO),并展示了在某些情况下组合离线和在线方法可以提高模型的性能。我们回顾了各种已发布的多模式优先偏好数据集,并讨论了它们构建细节对模型性能的影响。基于这些见解,我们介绍了一种称为偏见驱动幻觉抽样(BDHS)的新型多模式优先偏好数据创建方式,它既不需要额外的注释也不需要外部模型,并且展示了它可以在一系列基准测试中实现与以前发布的多模式模型对齐工作相当的性能。
- 解决问题本论文旨在探讨多模态大语言模型中偏好对齐的影响,并提出了一种新的构建多模态偏好数据的方法。
- 关键思路论文将多模态偏好对齐算法分为离线和在线两类,并提出了一种结合离线和在线方法的策略。此外,论文还提出了一种新的构建多模态偏好数据的方法,称为Bias-Driven Hallucination Sampling (BDHS)。
- 其它亮点论文通过独立分析偏好对齐的各个方面,介绍了多个已发布的多模态偏好数据集,并讨论了它们的构建细节如何影响模型性能。此外,论文还提出了一种新的构建多模态偏好数据的方法BDHS,并在多个基准测试中展示了其竞争性能。论文还介绍了多个偏好对齐算法,包括DPO和PPO,并提出了一种结合离线和在线方法的策略。
- 最近在多模态大语言模型领域中,还有一些相关的研究,例如:《DALL-E: Creating Images from Text》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》等。
沙发等你来抢
去评论
评论
沙发等你来抢