定义视觉新时代的基础模型：综述与展望

CV

大模型

白羽中 2023-07-28 16:45 分享

以下文章来源于arxiv.org

Foundational Models Defining a New Era in Vision: A Survey and Outlook

Muhammad Awais, Muzammal Naseer, Salman Khan, Rao Muhammad Anwer, Hisham Cholakkal, Mubarak Shah, Ming-Hsuan Yang, Fahad Shahbaz Khan
[MBZ University of AI & Australian National University & Linkoping University & ...]

定义视觉新时代的基础模型：综述与展望

动机：构建能够理解视觉场景组合性质的视觉系统，通过自然语言等多模态来描述复杂的对象关系和位置，进而实现视觉场景的理解和推理。
方法：通过系统综述新兴的基础模型，包括结合不同模态(视觉、文本、音频等)的典型架构设计、自监督学习目标、预训练数据集、微调机制以及常见的提示模式，如文本、视觉和多模态。
优势：提供了关于视觉和语言基础模型的全面综述，包括架构、训练目标、微调、提示设计等方面，并对其在计算机视觉中的应用进行了系统和全面的评估。

综述了新兴的视觉和语言基础模型，强调了它们在计算机视觉中的重要性和潜力。

https://arxiv.org/abs/2307.13721

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

评论列表

沙发等你来抢

去评论