LLaVA-OneVision: Easy Visual Task Transfer

2024年08月06日
  • 简介
    我们提出了LLaVA-OneVision,这是一组开放的大型多模型(LMMs),通过整合LLaVA-NeXT博客系列中对数据、模型和视觉表示的见解而开发。我们的实验结果表明,LLaVA-OneVision是第一个能够同时推动三个重要计算机视觉场景(单图像、多图像和视频场景)中开放LMMs性能边界的单一模型。LLaVA-OneVision的设计允许在不同的模态/场景之间进行强大的迁移学习,产生新的新兴能力。特别是,通过从图像到视频的任务转移,展示了强大的视频理解和跨场景能力。
  • 作者讲解
  • 图表
  • 解决问题
    LLaVA-OneVision试图解决单图像、多图像和视频场景下的计算机视觉问题,同时提高模型的跨模态/场景迁移学习能力。
  • 关键思路
    LLaVA-OneVision通过整合数据、模型和视觉表示的见解,设计了一种新的大型多模态模型,可以同时推动三种重要计算机视觉场景下的性能边界。该模型的设计允许在不同的模态/场景之间进行强大的迁移学习,产生新的出现能力。
  • 其它亮点
    该模型是第一个可以在单个模型中同时处理单图像、多图像和视频场景的模型,具有强大的跨模态/场景迁移学习能力。实验结果表明,LLaVA-OneVision在多个基准数据集上的性能超过了当前最先进的模型,并且可以在不同的场景之间进行迁移学习。
  • 相关研究
    最近的相关研究包括:ViT、DeiT、Swin Transformer等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问