Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models

Yushi Hu ,
Otilia Stretcu ,
Chun-Ta Lu ,
Krishnamurthy Viswanathan ,
Kenji Hata ,
Enming Luo ,
Ranjay Krishna ,
Ariel Fuxman
2023年12月05日
  • 简介
    我们提出了视觉程序蒸馏(Visual Program Distillation,VPD)框架,它是一种指令调整框架,可以通过单次前向传递解决复杂的视觉任务。VPD通过使用大型语言模型(LLM)来采样多个候选程序,并执行和验证这些程序以识别正确的程序,从而提取LLMs的推理能力。它将每个正确的程序翻译成推理步骤的语言描述,然后将其蒸馏成一个视觉语言模型(VLM)。大量实验证明,VPD提高了VLM计数、理解空间关系和组合推理的能力。我们使用VPD训练的PaLI-X在复杂的视觉任务中表现优异,包括MMBench、OK-VQA、A-OKVQA、TallyQA、POPE和Hateful Memes,并且优于所有先前的VLM。人类注释者的评估也证实了VPD提高了模型响应的事实性和一致性。最后,内容审核的实验表明,VPD对于适应有限数据的实际应用也是有帮助的。
  • 图表
  • 解决问题
    本论文旨在解决使用大型语言模型(LLM)分解视觉任务时存在的问题,包括生成的程序容易出现错误、需要加载多个模型导致计算成本高等问题,提出了一种名为VPD的指令调整框架,旨在通过生成可执行的程序并验证其正确性,将LLMs的推理能力转化为视觉语言模型(VLM),从而通过单次前向传递解决复杂的视觉任务。
  • 关键思路
    VPD通过使用LLMs来采样多个候选程序,然后执行和验证这些程序以识别正确的程序,将每个正确的程序转换为推理步骤的语言描述,然后将其蒸馏为VLM,从而提高了VLM的计数、理解空间关系和组合推理能力。
  • 其它亮点
    论文设计了一系列实验来验证VPD的有效性,使用了多个数据集,并且开源了代码。实验结果表明,VPD训练的VLM在多个视觉任务上均取得了最先进的性能,包括MMBench、OK-VQA、A-OKVQA、TallyQA、POPE和Hateful Memes。此外,VPD还有助于适应具有有限数据的现实世界应用。
  • 相关研究
    最近在这个领域中的相关研究包括使用LLMs分解视觉任务,以及使用VLMs解决视觉问题。其中一些相关的论文包括《Learning to Compose Neural Networks for Question Answering》、《Neural Module Networks》和《Compositional Attention Networks for Machine Reasoning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论