- 简介本文首次尝试在视觉语言模型(VLM)中进行无监督的偏好对齐。我们针对原始和增强图像对生成所选和被拒绝的响应,并通过直接偏好优化进行偏好对齐。它基于一个核心思想:对图像输入进行适当设计的增强将引导VLM生成错误但难以处理的负面响应,从而帮助模型学习并产生更强大、更健壮的答案。整个流程不再依赖于GPT4的监督或对齐过程中人类的参与,而且非常高效,只需要几行代码。仅使用8k个随机抽样的无监督数据,在复杂推理的LLaVA-Bench中实现了与GPT-4相对得分90\%,并在复杂多模态基准MM-Vet上将LLaVA-7B/13B的得分提高了6.7\%/5.6\%。可视化结果显示其改进了与用户意图的对齐能力。一系列实验证明了该方法的潜在机制,并表明其进一步扩展的潜力。代码将会公开。
- 图表
- 解决问题本论文尝试在视觉语言模型中实现无监督偏好对齐,以提高模型的鲁棒性和性能。
- 关键思路通过对图像输入进行适当的增强,诱导VLM生成错误但难以处理的负面响应,以帮助模型从中学习并产生更强大的答案。通过直接优化偏好来进行无监督的偏好对齐。
- 其它亮点使用少量的随机采样的无监督数据,该方法在LLaVA-Bench的复杂推理任务上实现了相对于GPT-4 90%的得分,并在复杂多模态基准MM-Vet上改进了LLaVA-7B / 13B的得分。代码将被公开。
- 相关研究包括监督和无监督的偏好对齐方法,以及视觉语言模型的其他性能提升方法。
沙发等你来抢
去评论
评论
沙发等你来抢