Chameleon: A Data-Efficient Generalist for Dense Visual Prediction in the Wild

简介

大型语言模型已经发展成为数据效率通用型模型，受益于通用语言界面和大规模预训练。然而，构建一个对稠密视觉预测数据有效的通用型模型面临着独特的挑战，因为不同任务的标签结构存在差异。因此，在低数据区域通用于未见过的稠密预测任务并不简单，并且之前的视觉通用模型对此问题的关注也较少。在本研究中，我们探索了一个通用模型，它可以通过少量示例灵活地适应未见过的稠密标签结构，使其能够在各种真实世界的情境中作为数据有效的视觉通用模型。为此，我们基于强大的元学习框架构建了我们的方法，并探索了多个方面来提高其在实际问题中的性能和通用性，例如灵活的适应机制和可扩展性。我们在一系列需要低样本学习的未见过的真实世界情境中评估了我们的模型，包括视频、三维、医学、生物和用户交互任务。配备通用的架构和有效的适应机制，我们的模型可以灵活地适应所有这些任务，最多只需要50个标记图像，展示了相对于现有数据有效通用模型方法的显著进展。代码可在 https://github.com/GitGyun/chameleon 获得。
图表
解决问题

本文试图解决如何构建一个数据高效的通用视觉预测模型，能够适应各种不同的密集标签结构，以少量样本实现低数据通用性的问题。
关键思路

作者基于元学习框架，提出了一种通用模型，能够灵活地适应不同的密集标签结构，实现低数据通用性。
其它亮点

本文提出的通用模型可以适应各种不同的密集标签结构，能够在低数据情况下实现通用性，具有较强的实用性。作者在视频、3D、医学、生物和用户交互等领域进行了实验验证，结果表明该模型在最多50个标记图像的情况下能够适应这些任务。作者还公开了代码，方便其他研究者使用和参考。
相关研究

相关研究包括：Few-shot Learning, Meta-learning, Universal Language Models for NLP.

Chameleon: A Data-Efficient Generalist for Dense Visual Prediction in the Wild

评论