- 简介本文介绍了一种简单而有效的方法,使用多模态大型语言模型(LLMs)进行零样本图像分类。通过使用多模态LLMs,我们从输入图像生成全面的文本表示。然后,利用这些文本表示在交叉模态嵌入空间中生成固定维度的特征。随后,这些特征被融合在一起,使用线性分类器进行零样本分类。我们的方法不需要针对每个数据集进行逐一的工程处理,而是在所有数据集上使用一个简单直接的提示集。我们在几个数据集上评估了我们的方法,结果表明其显著的有效性,在多个数据集上超过了基准准确度。平均而言,在十个基准测试中,我们的方法实现了4.1个百分点的准确率提升,与之前的方法相比,在ImageNet数据集上提高了6.8个百分点。我们的研究结果突显了多模态LLMs增强计算机视觉任务(如零样本图像分类)的潜力,相比传统方法,具有显著的改进。
-
- 图表
- 解决问题本文旨在使用多模式LLM解决零样本图像分类问题。该研究是否是一个新问题尚不确定。
- 关键思路通过使用多模式LLM,将图像转化为文本表示,并在交叉模态嵌入空间中生成固定维度的特征,然后将这些特征融合在一起,使用线性分类器进行零样本分类。
- 其它亮点该方法不需要为每个数据集进行专门的工程处理,而是在所有数据集上使用单一的、简单的提示。作者在多个数据集上评估了该方法,结果表明其显著的有效性,超过了多个数据集上的基准准确度。平均而言,在十个基准测试中,该方法的准确度提高了4.1个百分点,在ImageNet数据集上增加了6.8个百分点。
- 最近的相关研究包括“Learning to Learn with Feedback and Local Plasticity”和“Zero-Shot Learning via Simultaneous Generating and Learning”.
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流