Silkie: Preference Distillation for Large Visual Language Models

2023年12月17日
  • 简介
    本文探讨了对于大型视觉语言模型(LVLMs)进行偏好蒸馏,以提高其生成与视觉背景相关的有用且真实的回复的能力。首先,我们利用AI注释构建了一个视觉-语言反馈(VLFeedback)数据集。具体而言,回复是由从12个LVLMs中采样的模型生成的,这些模型是基于来自不同数据集的多模态指令条件生成的。我们采用GPT-4V对生成的输出进行有关有用性、视觉真实性和伦理考虑方面的评估。此外,偏好监督通过直接偏好优化(DPO)方法蒸馏到了Qwen-VL-Chat中。由此产生的模型Silkie,在感知和认知能力方面相对于MME基准分别取得了6.9%和9.5%的相对改进。Silkie还通过在MMHal-Bench基准上设定了新的最先进得分3.02来展示减少了幻觉。进一步的分析表明,DPO与我们的VLFeedback数据集主要提升了LVLMs的细粒度感知和复杂认知能力,相比于人工注释的偏好数据集,导致了更全面的改进。
  • 图表
  • 解决问题
    本文旨在通过优化偏好来改进大型视觉语言模型的生成能力,从而提高其在锚定视觉语境方面生成有用和忠实响应的能力。同时,本文还试图验证通过AI注释构建的视觉语言反馈数据集对于优化偏好的有效性。
  • 关键思路
    本文提出了直接偏好优化(DPO)方法,将优化后的偏好监督传递到Qwen-VL-Chat模型中。实验表明,使用本文构建的VLFeedback数据集进行DPO主要提升了LVLM的细粒度感知和复杂认知能力,相对于人类注释的偏好数据集,综合改进效果更为显著。
  • 其它亮点
    本文构建了一个视觉-语言反馈(VLFeedback)数据集,通过12个大型视觉语言模型生成响应,并使用GPT-4V模型对其进行有益性、视觉忠实性和道德考虑等方面的评估。本文提出的Silkie模型在MME基准测试中相对改进了6.9%和9.5%,在MMHal-Bench基准测试中取得了3.02的最高得分,并且减少了幻觉现象。本文的实验设计详细,使用了多个数据集,并提供了开源代码。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Generating Diverse and Accurate Visual Captions by Comparative Adversarial Learning》、《Multimodal Transformer for Unaligned Multimodal Language Sequences》、《Dual Visual Attention Network for Not-So-Parallel Image Captioning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论