Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use

简介

从内容审核到野生动物保护，需要模型识别微妙或主观视觉概念的应用程序数量正在增加。传统上，为这些概念开发分类器需要大量的手动工作，需要花费几个小时、几天甚至几个月来识别和注释训练所需的数据。即使使用最近提出的敏捷建模技术，可以快速启动图像分类器，用户仍需要花费30分钟或更长时间的单调、重复的数据标注来训练单个分类器。我们提出了一个新的框架，基于菲斯克的认知吝啬理论，通过使用自然语言交互来取代人工标注，减少了定义概念所需的总体力量一个数量级：从标注2000个图像到仅需100个加上一些自然语言交互。我们的框架利用了最近基础模型的进展，包括大型语言模型和视觉语言模型，通过对话和自动标注训练数据点来刻画概念空间。最重要的是，我们的框架消除了对众包注释的需求。此外，我们的框架最终产生了轻量级分类模型，可在成本敏感的场景中部署。在15个主观概念和2个公共图像分类数据集中，我们训练的模型表现优于传统的敏捷建模以及最先进的零样本分类模型，如ALIGN、CLIP、CuPL和大型视觉问答模型PaLI-X。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

论文提出了一种新的框架，通过自然语言交互来减少人工标注图像数据的工作量，从而更有效地开发分类器。

关键思路

该框架利用了最近基于语言和视觉的模型的进展，通过对话和自动标注训练数据点来定义概念空间，并消除了众包标注的需求。

其它亮点

论文在15个主观概念和2个公共图像分类数据集上进行了实验，结果表明该框架训练的模型优于传统的敏捷建模和最新的零样本分类模型。

Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use

提问交流

提问交流