Object Recognition as Next Token Prediction

Kaiyu Yue ,
Bor-Chun Chen ,
Jonas Geiping ,
Hengduo Li ,
Tom Goldstein ,
Ser-Nam Lim
2023年12月04日
  • 简介
    我们提出了一种将姿态物体识别视为下一个标记预测的方法。这个想法是应用一个语言解码器,从图像嵌入中自回归地预测文本标记以形成标签。为了将这个预测过程与自回归联系起来,我们为解码器定制了一个非因果关注掩码,包括两个关键特征:将来自不同标签的标记建模为独立的,以及将图像标记视为前缀。这种掩码机制启发了一种高效的方法——一次性采样——在推理过程中同时并行采样多个标记,并通过它们的概率对生成的标签进行排名。为了进一步提高效率,我们提出了一种简单的策略,通过简单地丢弃预训练语言模型的中间块来构建一个紧凑的解码器。这种方法产生了一个与完整模型性能相匹配但明显更高效的解码器。代码可在 https://github.com/kaiyuyue/nxtp 上找到。
  • 图表
  • 解决问题
    论文旨在将物体识别问题视为下一个标记预测问题。该方法的目的是提高物体识别的效率和准确性。
  • 关键思路
    论文的关键思路是使用语言解码器从图像嵌入中自回归地预测标记。为了使这个预测过程具有自回归性,论文为解码器定制了一个非因果注意掩码,包括两个关键特征:将来自不同标记的标记建模为独立的,并将图像标记视为前缀。
  • 其它亮点
    论文提出了一种高效的方法-一次性采样,可以同时并行采样多个标记的标记,并在推理过程中按其概率对生成的标记进行排名。为了进一步提高效率,论文提出了一种简单的策略,即通过简单地丢弃预训练语言模型的中间块来构建紧凑的解码器。该方法产生了一个与完整模型性能相当但明显更高效的解码器。
  • 相关研究
    最近在这个领域中,还有一些相关的研究。例如,VisualBERT将视觉和语言信息融合在一起进行图像分类和标注。另一个研究是ViLBERT,它使用两个并行的Transformer编码器来处理图像和文本信息。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论