What Do You See? Enhancing Zero-Shot Image Classification with Multimodal Large Language Models

简介

本文介绍了一种简单而有效的方法，使用多模态大型语言模型（LLMs）进行零样本图像分类。通过使用多模态LLMs，我们从输入图像生成全面的文本表示。然后，利用这些文本表示在交叉模态嵌入空间中生成固定维度的特征。随后，这些特征被融合在一起，使用线性分类器进行零样本分类。我们的方法不需要针对每个数据集进行逐一的工程处理，而是在所有数据集上使用一个简单直接的提示集。我们在几个数据集上评估了我们的方法，结果表明其显著的有效性，在多个数据集上超过了基准准确度。平均而言，在十个基准测试中，我们的方法实现了4.1个百分点的准确率提升，与之前的方法相比，在ImageNet数据集上提高了6.8个百分点。我们的研究结果突显了多模态LLMs增强计算机视觉任务（如零样本图像分类）的潜力，相比传统方法，具有显著的改进。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在使用多模式LLM解决零样本图像分类问题。该研究是否是一个新问题尚不确定。
关键思路

通过使用多模式LLM，将图像转化为文本表示，并在交叉模态嵌入空间中生成固定维度的特征，然后将这些特征融合在一起，使用线性分类器进行零样本分类。
其它亮点

该方法不需要为每个数据集进行专门的工程处理，而是在所有数据集上使用单一的、简单的提示。作者在多个数据集上评估了该方法，结果表明其显著的有效性，超过了多个数据集上的基准准确度。平均而言，在十个基准测试中，该方法的准确度提高了4.1个百分点，在ImageNet数据集上增加了6.8个百分点。
相关研究

最近的相关研究包括“Learning to Learn with Feedback and Local Plasticity”和“Zero-Shot Learning via Simultaneous Generating and Learning”.

What Do You See? Enhancing Zero-Shot Image Classification with Multimodal Large Language Models

提问交流

提问交流