Foundational Models Defining a New Era in Vision: A Survey and Outlook

Muhammad Awais, Muzammal Naseer, Salman Khan, Rao Muhammad Anwer, Hisham Cholakkal, Mubarak Shah, Ming-Hsuan Yang, Fahad Shahbaz Khan
[MBZ University of AI & Australian National University & Linkoping University & ...]

定义视觉新时代的基础模型:综述与展望

  • 动机:构建能够理解视觉场景组合性质的视觉系统,通过自然语言等多模态来描述复杂的对象关系和位置,进而实现视觉场景的理解和推理。
  • 方法:通过系统综述新兴的基础模型,包括结合不同模态(视觉、文本、音频等)的典型架构设计、自监督学习目标、预训练数据集、微调机制以及常见的提示模式,如文本、视觉和多模态。
  • 优势:提供了关于视觉和语言基础模型的全面综述,包括架构、训练目标、微调、提示设计等方面,并对其在计算机视觉中的应用进行了系统和全面的评估。

综述了新兴的视觉和语言基础模型,强调了它们在计算机视觉中的重要性和潜力。

https://arxiv.org/abs/2307.13721 


图片
图片
图片

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除