- 简介本文介绍了GLEE,一种用于定位和识别图像和视频中对象的基于对象级别的基础模型。GLEE通过统一框架实现了在开放世界场景下对任意对象的检测、分割、跟踪、接地和识别等各种对象感知任务。采用协同学习策略,GLEE从不同监督级别的多样数据源中获取知识,形成通用的对象表示,具有优异的零样本迁移能力。具体而言,我们采用图像编码器、文本编码器和视觉提示器处理多模态输入,从而在保持最先进性能的同时,同时解决各种以对象为中心的下游任务。通过对来自不同基准测试的超过五百万张图像进行广泛训练,GLEE展现出了卓越的通用性和改进的泛化性能,有效地解决下游任务,无需进行特定任务的适应。通过集成大量自动标记的数据,我们进一步增强了其零样本泛化能力。此外,GLEE能够集成到大型语言模型中,作为提供多模态任务通用对象级别信息的基础模型。我们希望我们方法的通用性和普适性将标志着高效视觉基础模型向AGI系统发展的重要一步。模型和代码将在https://glee-vision.github.io发布。
- 图表
- 解决问题论文旨在提出GLEE模型,实现对开放世界场景中任意物体的定位、分割、跟踪、定位和识别等多种物体感知任务,并在零样本迁移方面表现出色。
- 关键思路GLEE采用一种统一的框架,通过图像编码器、文本编码器和视觉提示器处理多模态输入,同时解决各种物体中心的下游任务,形成通用的物体表示,并在零样本迁移方面表现出色。
- 其它亮点论文通过对超过500万张图像进行广泛的训练,展示了GLEE模型的多样性和改进的泛化性能。此外,通过集成大量自动标记的数据,进一步增强了其零样本泛化能力。GLEE还能够集成到大型语言模型中,作为提供多模态任务通用物体级信息的基础模型。论文提供了模型和代码的开源。
- 近期的相关研究包括UniDet、DETR、Panoptic-DeepLab等。
沙发等你来抢
去评论
评论
沙发等你来抢