GiT: Towards Generalist Vision Transformer through Universal Language Interface

2024年03月14日
  • 简介
    本文提出了一个简单而有效的框架GiT,仅使用普通的ViT即可同时适用于各种视觉任务。受到在大型语言模型(LLMs)中广泛使用的多层Transformer架构(例如GPT)的通用性的启发,我们寻求扩大其范围,作为一个强大的视觉基础模型(VFM)。然而,与语言建模不同,视觉任务通常需要特定的模块,例如用于检测的边界框头和用于分割的像素解码器,这极大地阻碍了在视觉领域中应用强大的多层Transformer。为了解决这个问题,我们设计了一个通用的语言接口,使成功的自回归解码能够巧妙地统一各种视觉任务,从图像级理解(例如字幕),到稀疏感知(例如检测),再到密集预测(例如分割)。基于以上设计,整个模型仅由ViT组成,没有任何特定的添加,提供了显著的架构简化。GiT是一个多任务视觉模型,跨越五个代表性基准进行联合训练,无需特定的微调。有趣的是,我们的GiT在通用性能方面建立了一个新的基准,并促进了任务之间的相互增强,与孤立训练相比,取得了显著的改进。这反映了在LLMs中观察到的类似影响。通过在27个数据集上进一步丰富训练,GiT在各种任务上实现了强大的零-shot结果。由于其简单的设计,这种范式有望缩小视觉和语言之间的架构差距。代码和模型将在\url{https://github.com/Haiyang-W/GiT}上提供。
  • 图表
  • 解决问题
    本论文试图探讨如何使用ViT作为视觉任务的通用基础模型,同时避免针对每个任务设计特定的模块,从而简化模型架构。
  • 关键思路
    本论文提出了一种名为GiT的框架,通过设计通用的语言接口,使得ViT可以同时应用于图像级理解、稀疏感知和密集预测等多个视觉任务中,从而实现了视觉任务的通用化。
  • 其它亮点
    GiT是一个多任务视觉模型,仅使用ViT作为基础模型,不需要特定的添加,具有极大的架构简化优势。GiT在多个基准数据集上进行联合训练,取得了非常好的性能,同时在零样本学习方面也表现出色。该论文的亮点在于提出了一种通用的视觉模型设计思路,并且在实验中取得了很好的效果,对于缩小视觉和语言之间的架构差距具有重要意义。
  • 相关研究
    最近的相关研究包括:DETR、ViT、GPT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论