T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy

简介

我们提出了T-Rex2，这是一个高度实用的开放式目标检测模型。之前的开放式目标检测方法依赖于文本提示，有效地封装了常见物体的抽象概念，但由于数据稀缺和描述限制，对于罕见或复杂的物体表示存在困难。相反，视觉提示通过具体的视觉示例出色地描述了新颖物体，但在传达物体的抽象概念方面不如文本提示有效。认识到文本提示和视觉提示的互补优势和劣势，我们通过对比学习在单个模型中协同两种提示引入了T-Rex2。T-Rex2可以接受不同格式的输入，包括文本提示、视觉提示和两者的组合，以便通过在两种提示模态之间切换来处理不同的场景。全面的实验表明，T-Rex2在各种场景下表现出卓越的零样本目标检测能力。我们展示了文本提示和视觉提示在协同中可以互相受益，这对于覆盖大量复杂的现实场景并为通用目标检测铺平道路至关重要。现在可以在\url{https://github.com/IDEA-Research/T-Rex}获取模型API。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本文旨在解决开放式目标检测中数据稀缺和描述限制导致的罕见或复杂对象表示问题，通过结合文本提示和视觉提示的对比学习，提出了一种新的模型T-Rex2。
关键思路

T-Rex2模型结合了文本提示和视觉提示的优势，可以处理不同的输入格式，从而实现在广泛的场景下具有显著的零样本目标检测能力。
其它亮点

本文的亮点包括：1. T-Rex2模型结合了文本提示和视觉提示的优势，可以处理不同的输入格式；2. 实验结果表明，T-Rex2模型在广泛的场景下具有显著的零样本目标检测能力；3. 该模型的API已经在GitHub上开源。
相关研究

在这个领域中，最近的相关研究包括：1.《Open Set Domain Adaptation by Backpropagation》；2.《Learning to Learn from Noisy Labeled Data》；3.《Open Set Recognition: A Comprehensive Survey》。

T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy

提问交流

提问交流