MACAROON: Training Vision-Language Models To Be Your Engaged Partners

2024年06月20日
  • 简介
    大型视觉语言模型(LVLM)虽然擅长遵循指令并回答各种问题,但即使问题含义模糊或无法回答,它们也会生成详细的响应,导致幻觉和偏见问题。因此,LVLM积极与人类互动以请求澄清或提供更多信息以获得更好的响应至关重要。在本研究中,我们旨在将LVLM从被动的答案提供者转变为主动参与的合作伙伴。我们首先建立了一个三层次的问题层次结构,用于衡量LVLM的主动参与能力,包括无效、模糊和可个性化的问题。利用这个层次结构,我们通过GPT-4o和人类注释者创建了PIE(ProactIve Engagement Evaluation),包括853个问题,涵盖六种不同的、细粒度的问题类型,并由人类注释者验证,并附带了明确定义的指标。我们在基准测试上的评估表明,现有的LVLM表现不佳,最好的开放权重模型只能达到0.28的平均对齐率(AAR)。作为回应,我们引入了MACAROON(self-iMaginAtion for ContrAstive pReference OptimizatiON),它指示LVLM根据任务描述和人类制定的标准自主生成对比响应对于未标记的问题。然后,自我想象的数据被格式化为条件强化学习。实验结果表明,MACAROON有效地提高了LVLM的主动参与能力(0.84 AAR),同时在一般任务上保持了可比较的性能。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在将大型视觉语言模型(LVLMs)从被动回答提问的角色转变为主动参与对话的伙伴,解决LVLMs在回答模糊或无法回答的问题时出现的幻觉和偏见问题。
  • 关键思路
    通过建立无效、模糊和可个性化的三级问题层次结构,衡量LVLMs的主动参与能力,引入MACAROON,利用自我想象生成对比响应对来提高LVLMs的主动参与能力,并通过条件强化学习格式化自我想象数据。
  • 其它亮点
    论文通过PIE评估了现有LVLMs的表现,发现最好的模型只有0.28的平均对齐率(AAR),而MACAROON方法在保持一般任务表现的同时,有效提高了LVLMs的主动参与能力(0.84 AAR)。论文使用了853个问题和六种不同的细粒度问题类型进行实验,并有明确定义的指标和人工注释。值得关注的是,该论文提出的方法可以进一步深入研究。
  • 相关研究
    最近在这个领域中,还有一些相关研究,如:《GPT-3的缺点:大规模语言模型的性能、能力和机会》、《BERT:预训练深度双向Transformer表示法》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问