VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks

解决问题:本文旨在解决计算机视觉领域中,基于预定义形式的任务限制视觉基础模型的问题,提出了一种基于大型语言模型(LLM)的视觉任务框架,称为VisionLLM。该框架将图像视为一种外语,并通过对齐视觉中心任务和可以使用语言指令灵活定义和管理的语言任务,为视觉和语言任务提供了统一的视角,从而实现了开放式任务的能力。

关键思路:本文的关键思路是将LLM用作视觉任务解码器,通过对齐视觉和语言任务,使用语言指令进行任务自定义,实现了对开放式任务的支持。相对于当前领域的研究,本文的思路在于将LLM引入视觉任务中,实现了对开放式任务的支持。

其他亮点:本文的实验结果表明,VisionLLM可以通过语言指令实现不同级别的任务自定义,从细粒度的对象级别到粗粒度的任务级别的自定义,且结果良好。此外,作者还在COCO数据集上实现了超过60%的mAP,与检测特定模型相当。作者将在https://github.com/OpenGVLab/InternGPT发布演示版本,并在https://github.com/OpenGVLab/VisionLLM发布代码。本文的工作值得进一步深入研究。

关于作者:本文的主要作者分别来自清华大学、腾讯AI Lab和华为Noah's Ark Lab。他们之前的代表作包括:Wenhai Wang在CVPR 2020上发表了“Generalized Zero-Shot Object Detection via Changes of Visual and Semantic Embeddings”;Jifeng Dai是ResNet的发明人之一,曾在ECCV、ICCV、CVPR等国际会议上发表多篇论文。

相关研究:近期其他相关的研究包括:1. "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks",作者:Jiasen Lu等,机构:Facebook AI Research;2. "UNITER: Universal Image-text Representation Learning",作者:Yen-Chun Chen等,机构:Facebook AI Research。

论文摘要:本文介绍了一种基于大型语言模型(LLM)的视觉任务框架——VisionLLM。该框架将图像视为一种外语,并通过将视觉任务与可灵活定义和管理的语言任务对齐,为视觉和语言任务提供了统一的视角。基于LLM的解码器可以根据这些语言指令进行适当的预测,以完成开放式任务。实验表明,所提出的VisionLLM可以通过语言指令实现不同级别的任务定制,从细粒度的对象级到粗粒度的任务级,而且效果良好。值得注意的是,基于通用的LLM框架,该模型在COCO数据集上可以达到超过60%的mAP,与检测特定模型相当。我们希望该模型能够为通用视觉和语言模型设立新的基准。该演示将基于https://github.com/OpenGVLab/InternGPT发布,代码将在https://github.com/OpenGVLab/VisionLLM发布。

内容中包含的图片若涉及版权问题,请及时与我们联系删除