谷歌大脑 | Pix2seq：用于目标检测的语言建模框架

论文标题：Pix2seq: A Language Modeling Framework for Object Detection

作者单位：谷歌大脑

本文介绍了 Pix2Seq,这是一个用于目标检测的简单通用框架。与显式集成有关任务的先验^口识的现有方法不同，我们简单地将目标检测转换为以观察到的像素输入为条件的语言建模任务。Object descriptions （例如，边界框和类标签）表示为高散标记序列，我们训练神经网络来感知图像并生成所需的序列。我们的方法主要基于这样一种直觉，即如杲神经网络知道物体的位置和内容，我们只需要教它如何读取它们。除了使用特定于任务的数据增强之外，我们的方法对任务做出了最少的假设，但与高度专业化和优化良好的检测算法相比，它在具有挑战性的COCO数据集上取得了有竞争力的结果。