VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks

2024年06月12日
  • 简介
    我们推出了VisionLLM v2,这是一个端到端的通用多模态大型模型(MLLM),它将视觉感知、理解和生成统一到一个框架内。与传统的仅限于文本输出的MLLM不同,VisionLLM v2显著扩展了其应用范围。它不仅在传统的视觉问答(VQA)方面表现出色,而且在开放式、跨领域的视觉任务中也表现出色,例如物体定位、姿态估计、图像生成和编辑。为此,我们提出了一种新的信息传递机制,称为“超级链接”,作为连接MLLM和特定任务解码器的媒介。它不仅允许任务信息和梯度反馈在MLLM和多个下游解码器之间灵活传输,而且有效地解决了多任务场景中的训练冲突。此外,为了支持各种任务,我们精心收集和整理了来自数百个公共视觉和视觉语言任务的训练数据。通过这种方式,我们的模型可以在数百个视觉语言任务上进行端到端联合训练,并通过不同的用户提示使用一组共享参数来推广到这些任务,实现与特定任务模型相当的性能。我们相信VisionLLM v2将为MLLM的泛化提供新的视角。
  • 图表
  • 解决问题
    VisionLLM v2旨在解决视觉任务中的多模态融合问题,并提出了一种新的信息传递机制。
  • 关键思路
    通过引入“超级链接”机制,将多模态大模型(MLLM)与特定任务的解码器连接起来,从而实现灵活的任务信息和梯度反馈传递,同时有效解决多任务训练中的冲突问题。
  • 其它亮点
    论文采用了数百个公共视觉和视觉语言任务的训练数据,可以通过不同的用户提示对模型进行端到端的联合训练,并在各种任务上实现可比较的性能。实验结果表明,VisionLLM v2不仅在传统的视觉问答(VQA)任务上表现出色,还可以在开放式、跨领域的视觉任务中实现物体定位、姿态估计、图像生成和编辑等功能。
  • 相关研究
    与本论文相关的研究包括:《VQA是什么?一个详细的介绍》、《大规模多模态学习:从机器翻译到图像标注》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论